벡터화

이주현·2023년 12월 10일

머신러닝

목록 보기

3/14

가설 : 문장의 의미는 단어들 의미의 집합이다.
단어가 많이 반복되어 사용될수록 문장의 의미에 크게 영향을 줄 것이다.

중요한 단어일수록 자주 등장할 것.

단어들의 출현 빈도만을 알면 텍스트의 내용을 이해 할 수 있다.

단어들의 중요도 가중치를 부여하는 방법

문서 내 단어의 빈도수에 해당 단어가 등장한 문서 빈도의 역수를 함께 계산한 것

해당 문서 내 단어들의 출현 빈도와 함께 단어의 문서 빈도수, 즉 희소성까지 고려하여 좀 더 정확하게 단어의 중요성을 벡터화한 방법이다.
쉽게 말해, 모든 문서에서 자주 등장하는 단어는 해당 문서의 의미를 나타낸다고 보기 어렵고,
특정 문서에서만 유독 많이 등장하는 단어가 해당 문서의 의미를 잘 반영한다고 보는 것

문서 내 단어의 순서 정보를 기억

One-Hot-Emcoding = 독립적으로 하나에만 사용
ex) red ,green, blue
=> [1,0,0]
=> [0,1,0]

One-Hot-Emcoding 의 단점을 개선하여 나온것이 Word Embedding

Backend Delveloper