[DeepLearning] RNN 언어 모델 공부하기

Soyeon You·2023년 7월 23일

Study

목록 보기

2/4

RNN 언어 모델(RNNLM)

이전에 배운 언어 모델들을 정리해보자

n-gram LM: n-1개의 단어를 고려해서 다음 단어의 확률을 예측한다. 장기적 의존성 고려X
NNLM: 은닉층이 존재하고 단어 임베딩으로 문맥 정보를 학습하여 확률을 예측한다. 장기적 의존성 일부 고려O
RNNLM: RNN의 은닉 상태를 매 시점마다 갱신하면서 문맥 정보를 유지하며 확률을 예측한다. 장기적 의존성 고려O

RNNLM의 예측 과정

예문 'what will the fat cat sit on'에 대해, RNNLM이 어떻게 다음 단어를 예측하는지 알아보자

1. 입력 데이터 준비
각 단어를 워드 임베딩으로 변환하고 입력 데이터로 사용할 시퀀스를 형성한다.

2. 은닉 상태 초기화
시퀀스의 첫 번째 단어 'what'을 입력으로 받아 은닉 상태를 초기화한다.

3. 첫 번째 시점에서 다음 단어 예측
'what'과 은닉 상태를 입력으로 받아 다음 단어인 'will'의 확률을 계산한다.
이때, 은닉 상태는 이전 시점의 정보를 유지한다.
ex. P('will'|'what', 은닉 상태) = 0.8,
P('the'|'what', 은닉 상태) = 0.1,
P('fat'|'what', 은닉 상태) = 0.05, ...

4. 첫 번째 시점의 예측 결과
'what' 다음에 'will'이 올 확률이 가장 높다고 판단한다.

5. 두 번째 시점에서 다음 단어 예측
'will'과 업데이트된 은닉 상태를 입력으로 받아 다음 단어 'the'의 확률을 계산한다.

6. 두 번째 시점의 예측 결과
'will' 다음에 'the'가 올 확률이 가장 높다고 판단한다.