인공지능
자연어처리
인간
컴퓨터
응용분야
단어 임베딩
분류를 위해선 데이터를 수학적으로 표현 (그래프 위에 표현 → 대상들의 경계를 나눌 수 있음)
feature extraction, classification이 기계학습의 핵심
Word2Vec
FastText
단어를 n-gram으로 분리를 한 후, 모든 n-gram vector를 합산한 후 평균을 통해 단어 벡터 획득
오탈자, OOV, 등장 회수가 적은 학습 단어에 대해서 강세
한계점
언어모델
자연어의 법칙을 컴퓨터로 모사한 모델
마르코프 체인 모델(Markov Chain Model)
RNN (Recurrent Neural Network)
Seq2Seq (RNN 기반)
Attention 모델
기존 RNN 문제: long term dependency, 고정된 context vecotr 사이즈로 sequence 정보 함축 어려움, 중요하지 않은 token도 영향을 줌
중요한 feature는 더욱 중요하게 고려하는 방식
하지만, 여전히 RNN이 순차적으로 연산이 이뤄짐에 따라 연산 속도 느림
Self-Attention
Transformer
전처리
자연어처리 단계
한국어 토큰화
한국어 전처리 실습
한국어 Tokenizing
StratifiedShuffleSplit
사용)