1. 인공지능과 자연어 처리
자연어처리 관련 유튜브
FastText 설명 youtube
Seq2Seq 설명 동빈나님 youtube
Seq2Seq+Attention 허민석님 youtube
Further Questions
Embedding의 성능 평가방법
- WordSim353
- Spearman's correlation
- Analogy test
- Longformer
- Linformer
- Reformer
2. 자연어 전처리
- 학습에 사용될 데이터를 수집&가공하는 모든 프로세스
- Task의 성능을 가장 확실하게 올릴 수 있는 방법
자연어 전처리의 단계
• Task 설계
• 필요 데이터 수집
• 통계학적 분석
- Token 개수 -> 아웃라이어 제거
- 빈도 확인 -> 사전(dictionary) 정의
• 전처리
• Tagging
• Tokenizing
• 모델설계
• 모델구현
• 성능평가
• 완료
한국어 토큰화
- 주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업
- 토큰이 되는 기준은 다를 수 있음(어절,단어,형태소,음절,자소등)
전처리 실습
newspaper - 뉴스 기사 크롤링 라이브러리
kss - 문장 구분
soynlp - 반복 일반화
Normalizing
구두점(punctuation mark)에 대해 정리
Konlp
from konlpy.tag import Mecab
띄어쓰기 보정
kospacing
from pykospacing import Spacing
맞춤법 보정
from hanspell import spell_checker
유니코드 기반 필터링
자소 단위 tokenizing
import hgtk