[NLP] 언어 모델 - (4) 한국어에서의 언어 모델(Language Model for Korean Sentences)

김규리·2022년 6월 23일
0

NLP

목록 보기
14/33
post-thumbnail

한국어: 언어 모델로 다음 단어를 예측하기가 훨씬 까다로움

1. 한국어는 어순이 중요하지 않다.

2. 한국어는 교착어이다.

  • 교착어
    실질적인 의미를 가진 단어 또는 어간에 문법적인 기능을 가진 요소가 차례차례로 결합함으로써 문장 속에서의 문법적인 역할이나 관계의 차이를 나타내는 언어

어절 단위로 토큰화 -> 문장에서 발생가능한 단어의 수가 늘어남
토큰화를 통해 접사나 조사 등을 분리하는 것이 중요한 작업

3. 한국어는 띄어쓰기가 제대로 지켜지지 않는다.

profile
connecting the dots

0개의 댓글