[weekly NLP] Week 1

·2023년 5월 9일
0

위클리 NLP

목록 보기
1/13

컴퓨터에게 언어는 어떤 의미?

언어란 하나의 시스템, 즉 체계

문자열(character) -> 음절(syllable) -> 단어 (word)

컴퓨터는 모든걸 숫자로 본다.
그 기반으로 발전해 오고 이것을 디지털이라고 한다.

단어는 어떻게 숫자로 표현될 수 있을까?

vector로 표현

단어를 vector로 표현하는 것을
one-hot vector 라고 한다

대부분 NLP task는 아는 단어를 모아 vocabulary를 구성하는 것부터 시작하고 가지고 있는 데이터 전부 끌어모으는 작업을한다

끌어 모으는 데이터를 corpus 라고 한다.

corpus 너무 크면 이 모든 단어를 vocabulary에 사용하는 것이 옳을까?

-> 주로 각 단어의 빈도수를 살펴본다 (word frequency)

통계학적 분석, 모델 학습 시킬때 한두 번 나오는 단어 무의미할 것이라고 가정한하기 때문에 ( 가정이 틀릴 수 도 있다 )

따라서 corpus에 사이즈에 따라 최소 빈도수 정해 몇번 이상 나오는 단어만 사용하거나,
총 vocabulary size 정하고 빈도수 큰 단어만 포함시키는 식으로 vocabulary 구성한다.

출처
https://jiho-ml.com/weekly-nlp-1/

0개의 댓글