참고 자료 : 토큰화(Tokenization)
어휘 사전 구축
어휘 사전과 새로 들어온 문장 매칭
판다스 라이브러리 + konply 설치
토큰화
토큰화 + 학습 + 학습된 어휘 확인
단어 사전 확인
인코딩
어휘와 피처를 매칭해서 확인하기
테스트(새로운 단어가 들어오면 어떻게 매칭하는지 확인!)
EDA, 데이터 전처리
데이터 정보 파악
target 확인
결측치 처리
피쳐 엔지니어링
데이터 샘플링
토큰화
머신러닝(랜덤 포레스트 모델 사용) & F1으로 교차검증
- 교차 검증 : train set을 -> train set과 validation set(검증셋)으로 나눠서 학습 중 검증, 수정 수행
- F1 : 분류 모델 평가 지표, 정밀도(precisiton) + 재현율(recall) 조화평균
00%
이상 나타내는 단어 -> 무시