딥러닝 텐서플로 교과서 - 10장

Jajuna_99·2022년 10월 13일

TF-IDF 딥러닝 어탠션 임베딩 카운터벡터 텐서플로

딥러닝 텐서플로 교과서

목록 보기

11/13

10장 자연어 처리를 위한 임베딩

임베딩

임베딩(embedding) : 자연어(사람이 사용하는 언어)를 컴퓨터가 이해할 수 있는 언어(숫자) 형태인 벡터로 변환한 결과 혹은 일련의 과정

임베딩 방법의 따른 분류

희소 표현 기반 임베딩 : 희소 표현(sparse representation)은 대부분의 값이 0으로 채워져 있는 경우이다. -> 대표적으로 원-핫 인코딩이 있다. (p.399)
- 이 임베딩 기법은 2가지 문제점이 있는데 대부분의 요소가 0이라서 벡터의 내적을 구해도 0이라서 직교를 이룬다. -> 요소들이 관계성이 없고 독립적이다.
- 단어를 표현하는데 말뭉치 수 만큼 차원이 존재해서 복잡해지고, 차원의 저주(curse of dimension)을 야기한다.
횟수 기반 임베딩 : 단어의 출현 빈도를 고려하는 임베딩 기법. -> 카운터 벡터, TF-IDF가 대표격
- 카운터 벡터 : 문서 집합에서 단어를 토큰으로 생성하고 각 단어의 출현 빈도수를 이용하여 인코딩해서 벡터를 만드는 방법. -> 토크나이징과 벡터화가 동시에 가능하다. (p.400)
- TF-IDF(Term Frequency-Inverse Document Frequency) : 정보 검색론에서 가중치를 구할 때 사용되는 알고리즘 (p.402)
예측 기반 임베딩 : 신경망 구조 혹은 모델을 이용하여 특정 문맥에서 어떤 단어가 나올지를 예측하면서 단어를 벡터로 만드는 방식. -> 워드투벡터가 대표적
- 워드투벡터 : 주어진 텍스트에서 텍스트의 각 단어마다 하나씩 일련의 벡터를 출력하는 신경망 알고리즘 (p.405)
- CBOW, skip-gram, FastText 방식도 있다.
횟수/예측 기반 임베딩 : 횟수 기반과 예측 기반의 단점을 보완하기 위한 임베딩 기법
- 글로브(Glove, Global Vectors for Word Representation) : 횟수 기반의 LSA와 예측 기반의 워드투벡터 단점을 보안하기 위한 모델 (p.414)