CountVectorizer()를 사용했을때, 일부 단어들이 삭제되는 현상
vectorizer = CountVectorizer(strip_accents='unicode', token_pattern=r"(?u)\b\w\w+\b|'\w+")
토큰 소실도 해결
vectorizer = TfidfVectorizer(strip_accents='unicode', token_pattern=r"(?u)\b\w\w+\b|'\w+")
모델 1
모델 2
모델 3
모델 4 (best)
이전에 사용하던 CountVectorizer 파라미터 제거
정의한 불용어의 리스트를 CountVectorizer의 파라미터로 입력