백터화 방법

  • BoW
  • TF_IDF
  • Word Embedding


1. BoW(Bag-of-Words)

가설 : 문장의 의미는 단어들 의미의 집합이다.
단어가 많이 반복되어 사용될수록 문장의 의미에 크게 영향을 줄 것이다.

중요한 단어일수록 자주 등장할 것.

단어들의 출현 빈도만을 알면 텍스트의 내용을 이해 할 수 있다.

  • 해당 문서 내 단어들의 출현 빈도만을 가지고 텍스트를 벡터화(수치화)한 방법이다.

  • 순서를 고려하지 않는다.

  • 여러 텍스트의 BoW를 결합하여 "문서 단어 행렬(DTM)"을 만들 수 있다.

  • 단점으로 순서 정보를 담아내지 못한다는 한계

2. TF-IDF(Term Frequency-lnverse Documnet Frequency)

단어들의 중요도 가중치를 부여하는 방법

문서 내 단어의 빈도수에 해당 단어가 등장한 문서 빈도의 역수를 함께 계산한 것

  • 해당 문서 내 단어들의 출현 빈도와 함께 단어의 문서 빈도수, 즉 희소성까지 고려하여 좀 더 정확하게 단어의 중요성을 벡터화한 방법이다.

  • 쉽게 말해, 모든 문서에서 자주 등장하는 단어는 해당 문서의 의미를 나타낸다고 보기 어렵고,
    특정 문서에서만 유독 많이 등장하는 단어가 해당 문서의 의미를 잘 반영한다고 보는 것

3. Word Embedding

문서 내 단어의 순서 정보를 기억

  • One-Hot-Emcoding = 독립적으로 하나에만 사용
    ex) red ,green, blue
    => [1,0,0]
    => [0,1,0]
  • One-Hot-Emcoding 의 단점을 개선하여 나온것이 Word Embedding
  • 단어 하나 하나를 벡터화하여 문서 내 단어의 위치, 관계 정보를 벡터화한 방법이다.
profile
Backend Delveloper

0개의 댓글

Powered by GraphCDN, the GraphQL CDN