자연어처리 NLP의 5일차 프로젝트를 진행했습니다.
전에 전처리에 문제가 있는거 같아서 팀원이 제공해준 KLUR-BERT의 모델과 tokenizer을 사용했습니다.
전처리에 대해서 다양한 에이블러님들의 방식을 볼 수 있는 기회가 있었는데 저는 단순하게 이제 특수문자만 제거했지만 자연어처리에서 다양한 방식이 있다고 배울 수 있었습니다.
먼저 불용어처리를 해줍니다. 불용어를 처리하여 쓸모없는 용어를 제거함으로써 더 높은 성능을 기대할 수 있습니다.
맞춤법에 대한 처리를 해주면 성능 향상을 기대할 수 있습니다. 맞춤법 검사기 API를 활용하여 맞춤법을 맞춰주고 tokenizer를 해주면 성능 향상을 기대할 수 있습니다.
영어와 한글이 혼용되었다면 각각 나누어주어 따로 처리해주는 것도 하나의 방법이 될 수 있다고 배웠습니다.
이처럼 다양한 전처리 방법이 있다고 배울 수 있는 기회가 되었습니다.
모델링에서도 단순히 pre-trained된 모델을 불러와서 사용하는 것뿐 아니라 dropout을 통해 과적합을 방지해주고 성능향상을 위해 다양한 방법이 있다고 생각할 수 있었습니다.
아직 어떤 코드인지 이해가 부족해서 나중에 다시 코드를 추가하겠습니다.
추가 공부하고 코드 작성하도록 하겠습니다.
※공부하고 있어 다소 틀린점이 있을 수 있습니다. 언제든지 말해주시면 수정하도록 하겠습니다.
※용어에 대해 조금 공부 더 해서 수정하겠습니다.