양재 AI 허브/2022.07.20 Wed

이재하·2022년 7월 20일
0

양재 AI 허브

목록 보기
12/13
post-thumbnail

2022.07.20 Wed

[전이학습 복습-실무 응용 실습]
https://colab.research.google.com/drive/1NATDcl_OXgVlVN0p7WVOJYfiiBzjXKcA?hl=ko#scrollTo=nhNwtZX8QZOw

텍스트 표현

텍스트 표현 방법

  • 개수 기반(Count-based)
    근처 단어들의 개술르 새어서 만드는 방법
  • 클래스 기반(Class-based)
    계층적 클러스터링을 통해 만드는 방법
  • 분산 추론 기반 임베딩(Distributed prediction-based embeddings)
    근처 단어 및 멀리 있는 단어들을 구분하는 분류기(classifier)를 학습시켜 만드는 방법
  • 분산 문맥 임베딩(Distributed contextual embeddings)
    언어 모델(language model)에서 나온 임베딩

Distributional hypothesis

단어에 대한 이해를 하기 위해 단어가 쓰이는 맥락을 유지하는 다른 언어들로부터 알 수 있다고 가정하는 것

Word2Vec

-분산 추론 기반 임베딩 중 하나
-단어를 벡터로 표현, 추론에 기반을 둔 방법
-분류기로 하나의 단어를 입력으로 받아 그 주위에 있는 단어들을 추론한다
-단어들 간의 관계를 찾아냄
-Word2vec의 한계점
1. 단어 토큰을 만드는 것은 어려운 작업이다
2. 비슷하지만 다른 형태의 단어들이 많다

  • Word2vec의 한계점을 극복하기 위해 제안된 Fasttext
    -단어보다 작은 단위의 표현(subword)
    -n-gram : 시계열 형태의 것을 길이에 따라 쪼개는 방법으로 이때 쪼개진 것의 개수가 최대가 되도록 하나씩 움직이며 쪼개는 것을 뜻함
    -기존의 단어와 겹치는 부분이 많은데 다른 부분이 있으면 오탈자임을 유추할수있다
profile
SW Engineer

0개의 댓글