profile
사회초년생

자연어처리(NLP)-05 (정제 및 정규화)

코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(Tokenization)이라고 하며, 토큰화를 위해 정제와 정규화 과정이 선행된다. 이들의 목적은 다음과 같다.정제(Cleaning): 현재 코퍼스로부터 노이즈 데이터를 제거정규화(Normalization): 같은

2022년 9월 2일
·
0개의 댓글
·