정제 및 정규화: 토큰화 작업 전, 후 텍스트 데이터를 용도에 맞게 가공
1. 규칙에 기반한 표기가 다른 단어들의 통합
: 표기가 다른 단어들을 하나의 단어로 정규화
- 어간 추출(stemming)
- 표제어 추출(lemmatization)
2. 대, 소문자 통합
3. 불필요한 단어의 제거
노이즈 데이터: 자연어가 아니면서 아무 의미도 갖지 않는 글자(특수 문자), 분석 목적에 맞지 않는 불필요한 단어
- 불용어 제거
- 빈도가 적은 단어, 길이가 짧은 단어 제거
import re text = "I was wondering if anyone out there could enlighten me on this car." # 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제 shortword = re.compile(r'\W*\b\w{1,2}\b') print(shortword.sub('', text)) was wondering anyone out there could enlighten this car.
4. 정규 표현식(Regular Expression)
코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거