[NLP] 한국어 전처리에서 어간 추출은 필수인가?

cateto·2021년 7월 27일

개인공부용으로 출처에 있는 글을 그대로 인용했음을 밝힙니다.

문제 상황

한국어만 남기고(정제) 형태소 분석 이후에 훈련된 모델의 정확도가 낮음. 원인은 model 구성(maybe overfitting..), 전처리 과정 등에 있을 것으로 가설을 세우고 찾아가다가 어휘(특히 형용사, 동사와 같은 용언)의 분포가 넓고 같은 의미를 갖는 어휘가 통일되지 않아서 발생한 문제인가 라는 가설을 세우고 해결하는 과정이었음.

필자가 종종 받는 질문 중 하나는, lemmatization 또는 stemming을 수행하여 접사 등을 제거한 이후에 텍스트 분류를 적용해야 하는지에 관한 것입니다.
…
따라서 코퍼스가 부족한 상황에서는 이처럼 lemmatization이나 stemming가 같은 문장에 대해 같은 샘플로 취급하여 희소성 문제에서 어느정도 타협을 볼 수 있습니다.
…
하지만 딥러닝 시대에 접어들어 성공적으로 차원 축소를 수행할 수 있게 되면서, 희소성 관련 문제는 더 이상 큰 장애물이 되지 않습니다. 따라서 lemmatization 및 stemming이 반드시 정석이라 하기는 어렵습니다.

결론

따라서 처음부터 lemmatization 또는 stemming을 한 후에 텍스트 분류 문제에 접근하는 것보다는, 일단은 하지 않은 상태에서, 이후 설명할 신경망 모델을 사용하여 텍스트 분류 문제 해결을 시도하여 베이스라인 성능을 확보함이 바람직합니다. 이후에 성능 향상을 위한 차원에서 여러 가지 튜닝 및 시도를 할 때 코퍼스 양의 부족이 성능 저하의 원인이라는 가정이 성립되면, 그때 lemmatization 또는 stemming을 추가로 실험해보는 편이 낫습니다.

전처리 과정에서 어간추출(Stemming)은 필수가 아님.

ㅠㅠ 다시 돌아가서 원인을 찾아보자.

출처 : https://inhyeokyoo.github.io/nlp/korean-preprocessing/#lemmatization-stemming

cateto

Curious for Everything

이전 포스트

[python] timestamp를 datetime으로 변환하기

다음 포스트

[NLP] 한국어 전처리에서 어간 추출은 필수인가?

개인공부용으로 출처에 있는 글을 그대로 인용했음을 밝힙니다.

문제 상황

결론

전처리 과정에서 어간추출(Stemming)은 필수가 아님.

[python] timestamp를 datetime으로 변환하기

[conda + tensorflow] 딥러닝 환경 구축 (2021.08.26 ver)

0개의 댓글