문장 토큰 분류

naem1023·2021년 9월 28일
0

How to NLP

목록 보기
6/7

모델

주어진 문장의 각 token들이 어떤 범주에 속하는 분류하는 task. classifier가 token마다 붙게된다.

NER

Named Entity Recognition.
문맥을 통해 문서에서 인명, 기관명 같은 특정 의미를 가진 단어 / 어구 / 개체를 인식하는 과정.

같은 단어라도 다양한 Entity로 인식될 수 있기 때문에 문맥을 파악하는 것이 중요하다.

https://github.com/kakaobrain/pororo

카카오에서 개발한 NLP, Speech-related task library다. 한국어로 처리 가능한 대부분의 task를 수행해주는 라이브러리인데, NER 또한 포함돼있다.

POS Tagging

Part-of-speech tagging.

  • 문서를 품사, 형태소로 분리

한국어 데이터

  • kor_ner
    • 한국어해양대학교에서 발표한 NER 데이터셋
    • NER 데이터셋은 보통 pos tagging 정보도 포함돼있고 kor_ner도 포함돼있다.
    • BIO tag로 라벨링 wikidocs

학습

앞서 설명한 것처럼 token별로 classifier를 부착해서 학습을 수행한다.

문장 토큰 분류 시, 음절 단위의 tokenizing 추천!
형태소, 어절 단위로 분류하게 되면 Entity의 정의 자체가 모호해지는 경우가 있기 때문이다. 가령, '이순신은'을 '이순'과 '신은'으로 분류할 수도 있는데 '신은'은 아무리 학습을 해도 사람으로 분류하기 쉽지 않다.

profile
https://github.com/naem1023

0개의 댓글