실용 자연어처리 Ch.5

송종빈·2023년 4월 22일

23-1

목록 보기

14/31

CountVectorizer()를 사용했을때, 일부 단어들이 삭제되는 현상

vectorizer = CountVectorizer(strip_accents='unicode', token_pattern=r"(?u)\b\w\w+\b|'\w+")

토큰 소실도 해결

vectorizer = TfidfVectorizer(strip_accents='unicode', token_pattern=r"(?u)\b\w\w+\b|'\w+")

모델 1

모델 2

모델 3

모델 4 (best)

이전에 사용하던 CountVectorizer 파라미터 제거

정의한 불용어의 리스트를 CountVectorizer의 파라미터로 입력

Student Dev - Language Tech & Machine Learning