[NLP] 텍스트 전처리 - (2) 정제와 정규화

김규리·2022년 6월 8일

NLP 데이터분석 데이터전처리 자연어 자연어처리 텍스트데이터

NLP

목록 보기

2/33

정제 및 정규화: 토큰화 작업 전, 후 텍스트 데이터를 용도에 맞게 가공

정제(cleaning): 가지고 있는 코퍼스로부터 노이즈 데이터 제거
정규화(normalization): 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어줌

1. 규칙에 기반한 표기가 다른 단어들의 통합

: 표기가 다른 단어들을 하나의 단어로 정규화

어간 추출(stemming)

표제어 추출(lemmatization)

2. 대, 소문자 통합

3. 불필요한 단어의 제거

노이즈 데이터: 자연어가 아니면서 아무 의미도 갖지 않는 글자(특수 문자), 분석 목적에 맞지 않는 불필요한 단어

불용어 제거

빈도가 적은 단어, 길이가 짧은 단어 제거
import re
text = "I was wondering if anyone out there could enlighten me on this car."
# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))
was wondering anyone out there could enlighten this car.

4. 정규 표현식(Regular Expression)

코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거

김규리

connecting the dots

이전 포스트

[NLP] 텍스트 전처리 - (1) 토큰화

다음 포스트

[NLP] 텍스트 전처리 - (2) 정제와 정규화

NLP

1. 규칙에 기반한 표기가 다른 단어들의 통합

2. 대, 소문자 통합

3. 불필요한 단어의 제거

4. 정규 표현식(Regular Expression)

[NLP] 텍스트 전처리 - (1) 토큰화

[NLP] 텍스트 전처리 - (3) 어간 추출과 표제어 추출

0개의 댓글