가설 : 문장의 의미는 단어들 의미의 집합이다.
단어가 많이 반복되어 사용될수록 문장의 의미에 크게 영향을 줄 것이다.
중요한 단어일수록 자주 등장할 것.
단어들의 출현 빈도만을 알면 텍스트의 내용을 이해 할 수 있다.
해당 문서 내 단어들의 출현 빈도만을 가지고 텍스트를 벡터화(수치화)한 방법이다.
순서를 고려하지 않는다.
여러 텍스트의 BoW를 결합하여 "문서 단어 행렬(DTM)"을 만들 수 있다.
단점으로 순서 정보를 담아내지 못한다는 한계
단어들의 중요도 가중치를 부여하는 방법
문서 내 단어의 빈도수에 해당 단어가 등장한 문서 빈도의 역수를 함께 계산한 것
해당 문서 내 단어들의 출현 빈도와 함께 단어의 문서 빈도수, 즉 희소성까지 고려하여 좀 더 정확하게 단어의 중요성을 벡터화한 방법이다.
쉽게 말해, 모든 문서에서 자주 등장하는 단어는 해당 문서의 의미를 나타낸다고 보기 어렵고,
특정 문서에서만 유독 많이 등장하는 단어가 해당 문서의 의미를 잘 반영한다고 보는 것
문서 내 단어의 순서 정보를 기억
- One-Hot-Emcoding = 독립적으로 하나에만 사용
ex) red ,green, blue
=> [1,0,0]
=> [0,1,0]- One-Hot-Emcoding 의 단점을 개선하여 나온것이 Word Embedding