[NLP] 텍스트 전처리 - (2) 정제와 정규화

김규리·2022년 6월 8일
0

NLP

목록 보기
2/33
post-thumbnail

정제 및 정규화: 토큰화 작업 전, 후 텍스트 데이터를 용도에 맞게 가공

  • 정제(cleaning): 가지고 있는 코퍼스로부터 노이즈 데이터 제거
  • 정규화(normalization): 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌

1. 규칙에 기반한 표기가 다른 단어들의 통합

: 표기가 다른 단어들을 하나의 단어로 정규화

  • 어간 추출(stemming)
  • 표제어 추출(lemmatization)

2. 대, 소문자 통합

3. 불필요한 단어의 제거

노이즈 데이터: 자연어가 아니면서 아무 의미도 갖지 않는 글자(특수 문자), 분석 목적에 맞지 않는 불필요한 단어

  • 불용어 제거
  • 빈도가 적은 단어, 길이가 짧은 단어 제거
import re
text = "I was wondering if anyone out there could enlighten me on this car."
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))
was wondering anyone out there could enlighten this car.

4. 정규 표현식(Regular Expression)

코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거

profile
connecting the dots

0개의 댓글