부스트캠프 week9 day1

Dae Hee Lee·2021년 9월 27일

BoostCamp_level2_Pstage_KLUE

목록 보기

2/8

1. 인공지능과 자연어 처리

자연어처리 관련 유튜브

FastText 설명 youtube

Seq2Seq 설명 동빈나님 youtube

Seq2Seq+Attention 허민석님 youtube

Further Questions

Embedding의 성능 평가방법

WordSim353
Spearman's correlation
Analogy test

Vanilar Transformer의 문제와 극복 방법

Longformer
Linformer
Reformer

2. 자연어 전처리

학습에 사용될 데이터를 수집&가공하는 모든 프로세스
Task의 성능을 가장 확실하게 올릴 수 있는 방법

자연어 전처리의 단계

• Task 설계
• 필요 데이터 수집
• 통계학적 분석

Token 개수 -> 아웃라이어 제거
빈도 확인 -> 사전(dictionary) 정의

• 전처리
• Tagging
• Tokenizing
• 모델설계
• 모델구현
• 성능평가
• 완료

한국어 토큰화

주어진 데이터를 토큰(Token)이라 불리는 단위로 나누는 작업
토큰이 되는 기준은 다를 수 있음(어절,단어,형태소,음절,자소등)

전처리 실습

newspaper - 뉴스 기사 크롤링 라이브러리
kss - 문장 구분
soynlp - 반복 일반화

Normalizing

구두점(punctuation mark)에 대해 정리

Konlp

from konlpy.tag import Mecab

띄어쓰기 보정

kospacing

from pykospacing import Spacing

맞춤법 보정

from hanspell import spell_checker

유니코드 기반 필터링

자소 단위 tokenizing

import hgtk

Dae Hee Lee

Today is the day

다음 포스트