[CS224n] Lecture 1 - Introduction and Word Vector

tobigsNLP·2020년 12월 20일

Introduction and Word Vector NLP cs224n

CS224n Review

목록 보기

1/16

작성자 : 투빅스 13기 조혜원

Contents

How to represent Words' Meaning

Word2Vec

Derivations of Gradient

How to represent Words' Meaning

1. WordNet

1) WordNet은 동의어, 상하관계 언어의 집합입니다.
2) 단어 의미 간의 유사도와 관계를 얻기 어렵습니다.
3) 주관적인 판단 기준, 뉘앙스를 파악하기 어렵습니다.
4) 신조어 생성, 관리에 지속적 인력 투입이 필요합니다.

2. One-Hot Vector

1) 단어의 개수가 곧 Vector의 차원으로, Vector의 차원이 아주 많이 필요합니다.
2) 이 역시 단어 간의 관계를 파악하려면 차원이 제곱이 되며 어려워집니다

3. Distributional Semantics

1) 위 두가지의 문제점을 해결한 것으로, 단어의 문맥을 고려한 방법입니다.
2) fixed size window를 통해 단어를 표현할 때 주위(context)를 살펴, 비슷한 문맥에서 나타나는 비슷한 단어들끼리 유사한 벡터를 가집니다.
3) Word Embeddings, Word Representations 라고도 불립니다.

4) Vector space: 각 vector들의 배치를 2D 공간에 투영한 것. 정확히 투영되지는 않지만 유사한 단어가 유사한 위치에 있음을 확인할 수 있습니다.

Word2Vec

개념

1) Word Vector을 학습에 쓰이는 프레임워크입니다.
2) 충분한 양의 corpus를 바탕으로, Random Vector에서부터 시작하여 각 단어를 잘 표현하는 Vector 값을 찾습니다.
3) 단어 벡터간의 유사도를 이용해 맥락에서 특정 단어가 나타날 확률을 계산합니다.

과정

1) 현재 위치 t에 있는 단어를 $W_t$ , 주변에 있는 단어를 $W_t+n$ , $W_t-n$ 이라고 할 때 $P(W_t+n|W_t)$ , $P(W_t-n|W_t)$ 를 구합니다.
2) $P(W_t+n|W_t)$ , $P(W_t-n|W_t)$ 를 최대화하는 vector를 찾습니다.
3) corpus 안의 모든 단어에 대해 1~2를 거칩니다.

계산법

1) L(𝜽), Likelihood

word vector 𝜽(parameter)가 주어졌을 때, window 내의 context word가 해당 위치에 나타날 확률의 곱입니다.

2) J(𝜽), Objective function

negative log likelihood 를 거쳐 objective function을 만든 후, 이를 최소화 하는 𝜽(parameter)를 구합니다. 이처럼 objective function을 최소화 하는 과정을 통해 predictive accuracy를 최대화할 수 있습니다.

3) P(o|c)