주어진 문장의 각 token들이 어떤 범주에 속하는 분류하는 task. classifier가 token마다 붙게된다.
Named Entity Recognition.
문맥을 통해 문서에서 인명, 기관명 같은 특정 의미를 가진 단어 / 어구 / 개체를 인식하는 과정.
같은 단어라도 다양한 Entity로 인식될 수 있기 때문에 문맥을 파악하는 것이 중요하다.
https://github.com/kakaobrain/pororo
카카오에서 개발한 NLP, Speech-related task library다. 한국어로 처리 가능한 대부분의 task를 수행해주는 라이브러리인데, NER 또한 포함돼있다.
Part-of-speech tagging.
앞서 설명한 것처럼 token별로 classifier를 부착해서 학습을 수행한다.
문장 토큰 분류 시, 음절 단위의 tokenizing 추천!
형태소, 어절 단위로 분류하게 되면 Entity의 정의 자체가 모호해지는 경우가 있기 때문이다. 가령, '이순신은'을 '이순'과 '신은'으로 분류할 수도 있는데 '신은'은 아무리 학습을 해도 사람으로 분류하기 쉽지 않다.