[NLP] 임베딩 Embedding

KingU·2022년 5월 5일
0

NLP

목록 보기
2/14
post-thumbnail

임베딩 Embedding


자연어를 숫자나 벡터 형태로 변환하는 것
단어나 문장을 수치화해 벡터 공간으로 표현하는 과정






목적


컴퓨터에서 자연어를 처리하기 때문에 자연어를 숫자나 벡터 형태로 변환해야 한다.






단어 임베딩


말뭉치(혹은 코퍼스)내 단어의 의미를 고려하여 좀 더 조밀한 차원에 단어를 벡터로 표현하는 것


종류

  • LSA

  • Word2Vec

  • GloVe

  • FastText






Word2Vec


신경망 기반 단어 임베딩의 대표적인 방법


방식

  • CROW(coninuous bag-of-words): 주변 단어들 기준으로 가중치 데이터를 임베딩 벡터로 활용

  • Skip-Gram: 하나의 타깃 단어를 기준으로 주변 단어를 예측


파라미터 종류

  • sentences : 문장 데이터
  • vector_size : 단어 임베딩 벡터의 차원
  • window : 주변 단어 윈도우의 크기
  • hs : 1(softmax 사용), 0(음수 샘플링 사용)
  • min_count : 단어 최소 빈도 수 제한
  • sg : 0(CBOW 모델), 1(skip-gram 모델)






정리

자연어를 그대로 처리할 수 없으므로 연산 가능한 벡터 형태로 변환하는 것을 임베딩이라고 한다.
말뭉치의 품질과 데이터양이 충분하다면 훌륭한 품질의 임베딩 모델을 구축할 수 있다.
임베딩은 신경망 모델의 입력으로 많이 사용된다.






예제 코드

Link: Word Embedding Code






당신의 시간이 헛되지 않는 글이 되겠습니다.
I'll write something that won't waste your time.

profile
원하는 것을 창조하고 창조한 것을 의미있게 사용하자

0개의 댓글