[NLP] 언어 모델 - (2) 통계적 언어 모델(Statistical Language Model, SLM)

김규리·2022년 6월 23일

NLP

목록 보기

12/33

1. 조건부 확률

2. 문장에 대한 확률

문장의 확률 = 각 단어들이 이전 단어가 주어졌을 때 다음 단어로 등장할 확률의 곱

3. 카운트 기반의 접근

P(is|An adorable little boy)
= count(An adorable little boy is) / count(An adorable little boy)

ex. An adorable little boy가 100번 등장했는데 그 다음에 is가 등장한 경우가 30번이라면 이 경우 P(is|An adorable little boy)는 30%

4. 카운트 기반 접근의 한계 - 희소 문제(Sparsity Problem)

희소 문제: 충분한 데이터를 관측하지 못하여 언어를 정확히 모델링하지 못하는 문제
ㄴ 해결 방법: n-gram 언어 모델 or 스무딩이나 백오프와 같은 여러가지 일반화 기법
ㄴ But 근본적인 한계는 극복 X -> 인공 신경망 언어 모델 사용

connecting the dots