
참고 자료 : 토큰화(Tokenization)
어휘 사전 구축

어휘 사전과 새로 들어온 문장 매칭

판다스 라이브러리 + konply 설치

토큰화

토큰화 + 학습 + 학습된 어휘 확인

단어 사전 확인

인코딩

어휘와 피처를 매칭해서 확인하기

테스트(새로운 단어가 들어오면 어떻게 매칭하는지 확인!)



EDA, 데이터 전처리
데이터 정보 파악

target 확인

결측치 처리

피쳐 엔지니어링

데이터 샘플링

토큰화

머신러닝(랜덤 포레스트 모델 사용) & F1으로 교차검증
- 교차 검증 : train set을 -> train set과 validation set(검증셋)으로 나눠서 학습 중 검증, 수정 수행
- F1 : 분류 모델 평가 지표, 정밀도(precisiton) + 재현율(recall) 조화평균

00% 이상 나타내는 단어 -> 무시






