Corpus: 말뭉치, 언어 연구를 염두에 두고 구축 된 말,글,텍스트의 모음Word Tokenization: 단어 토큰화, Word(단어, 단어구, 의미를 갖는 문자열)기준으로 토큰화 하는 것.Ex: Hi, my name is Richard!=> "Hi","my","
정제(Cleaning), 정규화(Normalization) 정제: 코퍼스로부터 노이즈 제거 정규화: 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 규칙에 기반한 표기가 다른 단어들의 통합 대,소문자 통합 무작정 통합은 X 예로 US와 us는 다르다. 회사 이름
불용어(Stopword) 큰 의미가 없는 단어 토큰. 자주 등장 하지만, 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들. NLTK에서 불용어 확인하기 NLTK를 통해 불용어 제거하기 한국어에서 불용어 제거하기 > 아래의 링크는 보편적으로 선택할 수 있