실용 자연어처리 Ch.5

송종빈·2023년 4월 22일
0

23-1

목록 보기
14/31

머신러닝 실습(2)

머신러닝 과정 실습

[모델 1] CountVectorizer의 토큰 소실 문제 해결

CountVectorizer()를 사용했을때, 일부 단어들이 삭제되는 현상

vectorizer = CountVectorizer(strip_accents='unicode', token_pattern=r"(?u)\b\w\w+\b|'\w+")

[모델 3] TF-IDF 구현으로 변경

토큰 소실도 해결

vectorizer = TfidfVectorizer(strip_accents='unicode', token_pattern=r"(?u)\b\w\w+\b|'\w+")

Summary

모델 1

  • 한국어 입력에 맞는 CountVectorizer 개선 버전

모델 2

  • N-gram 자질 사용 버전

모델 3

  • TF-IDF 자질 사용 버전

모델 4 (best)

  • N-gram & TF-IDF 자질 사용 버전

형태소 분석 실습

조사 불용어 처리

이전에 사용하던 CountVectorizer 파라미터 제거

  • 그렇지 않으면 불용어 처리가 안 됨

정의한 불용어의 리스트를 CountVectorizer의 파라미터로 입력

profile
Student Dev - Language Tech & Machine Learning

0개의 댓글