자연어 처리 분야(NLP)에서는, 종종 감성 분석을 통하여 소비자의 요구 사항을 파악합니다.
감성 분석에는 다양한 기법이 존재하지만 감성 사전을 통한 방식이 단순하면서도 효과적입니다.
이때 감성 사전을 구축하기 위해 TF-IDF, 그리고 Word2Vec를 활용하여 사전을 구축하는 방식에 대하여 알아봅시다.
사용 용도는, 리뷰 데이터셋의 경우 각 리뷰 내의 중요한 단어를 찾을 수 있습니다.
(TF-IDF에서 중요한 단어란 여러 리뷰에서 발생 빈도가 높은 단어가 아닌, 특정 리뷰에서 발생 빈도가 높은 단어입니다.)
그러면 이를 어떻게 구하는지 파악해봅시다.
d: 문서(하나의 데이터)
t: 단어
n: 문서의 총 개수(데이터 총 개수)
tf(d, t) = 문서 d에서 단어 t의 등장 횟수
df(t) = 단어 t가 등장한 문서 개수
예시로,
사전 | 데이터 | 분석 | |
---|---|---|---|
문서1 | ㅁ | ㅁ | ㅁ |
문서2 | ㅁ | ㅁ | ㅁ |
문서3 | ㅁ | ㅁ | ㅁ |
참고자료 : 딥러닝을 이용한 자연어 처리 입문
2022.06.19 update