[NLP] 카운트 기반 단어 표현 - (1) 다양한 단어의 표현 방법

김규리·2022년 6월 24일
0

NLP

목록 보기
17/33
post-thumbnail

카운트 기반의 텍스트 표현 방법

  • DTM(Document Term Matrix)
  • TF-IDF(Term Frequency-Inverse Document Frequency)

텍스트를 위와 같은 방식으로 수치화를 하고나면, 통계적인 접근 방법을 통해 여러 문서로 이루어진 텍스트 데이터가 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내거나, 문서의 핵심어 추출, 검색 엔진에서 검색 결과의 순위 결정, 문서들 간의 유사도를 구하는 등의 용도로 사용

1. 단어의 표현 방법

(1) 국소 표현(Local Representation) or 이산 표현(Discrete Presentation)
: 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법
ㄴ 의미, 뉘앙스 표현 X

(2) 분산 표현(Distributed Representation) or 연속 표현(Continuous Representation)
: 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법
ㄴ 의미, 뉘앙스 표현 O

2. 단어 표현의 카테고리화

  • Bag of Words: 단어의 빈도수를 카운트하여 단어를 수치화하는 단어 표현 방법
  • DTM(or TDM): BoW의 확장
  • TF-IDF: 빈도수 기반 단어 표현에 단어의 중요도에 따른 가중치를 줄 수 있는 방법
profile
connecting the dots

0개의 댓글