Distributed Representation

TaeWoo Lee / Kris·2022년 3월 3일
0

단어의 분산 표현(Distributed Representation)

  • 분포가설

    • 비슷한 의미를 가진 단어는 주변 분포도 비슷할 것이다 라는 가설
  • 원핫 인코딩 : 단어를 벡터화하고자 할 때 가장 쉬운 방법

    • 단점은 단어 사이의 관계를 전혀 알 수 없고 차원이 너무 커짐
  • 임베딩 : 사람이 쓰는 자연어를 기계가 이해할 수 있는 숫자의 나열인 벡터로 바꾼 결과 혹은 그 과정 전체를 의미

    • 특징 : 벡터 내의 각 요소가 연속적인 값을 가진다.
  • Word2Vec(임베딩의 대표적인 모델) : 단어를 바로 벡터로 변환

    • 단점 : 말뭉치에 등장하지 않는 단어는 벡터화 할 수 없다. (OOV) -> 단점 보완하기위한 모델은 fest-text
    • CBoW : 주변 단어에 대한 정보를 기반으로 중심 단어의 정보를 예측모델
    • Skip-gram : 중심 단어의 정보를 기반으로 주변 단어의 정보를 예측
    • Word2Vec 구조
      • 입력 : 원 핫 인코딩된 단어 벡터
      • 은닉층 : 입베딩 벡터의 차원 수 (은닉층 1개)
      • 출력층 : 단어 개수 (소프트 맥스 사용)
profile
일단 저지르자! 그리고 해결하자!

0개의 댓글