[자연어 처리] TF-IDF + Word2Vec을 활용한 사전 구축

Q·2022년 6월 19일

project

목록 보기

2/3

자연어 처리 분야(NLP)에서는, 종종 감성 분석을 통하여 소비자의 요구 사항을 파악합니다.

감성 분석에는 다양한 기법이 존재하지만 감성 사전을 통한 방식이 단순하면서도 효과적입니다.

이때 감성 사전을 구축하기 위해 TF-IDF, 그리고 Word2Vec를 활용하여 사전을 구축하는 방식에 대하여 알아봅시다.

TF-IDF (Term Frequency-Inverse Document Frequency)
: Term, 즉 단어 빈도와 문서 빈도를 사용하여 DTM, 즉 문서 내의 단어 행렬에서 단어의 중요도를 가중치로 주는 방식입니다.

사용 용도는, 리뷰 데이터셋의 경우 각 리뷰 내의 중요한 단어를 찾을 수 있습니다.
(TF-IDF에서 중요한 단어란 여러 리뷰에서 발생 빈도가 높은 단어가 아닌, 특정 리뷰에서 발생 빈도가 높은 단어입니다.)

그러면 이를 어떻게 구하는지 파악해봅시다.

d: 문서(하나의 데이터)
t: 단어
n: 문서의 총 개수(데이터 총 개수)

tf(d, t) = 문서 d에서 단어 t의 등장 횟수
df(t) = 단어 t가 등장한 문서 개수

예시로,

Data Engineer