Transformer 기반 최신 NLP 모델 비교

choonsikmom·2022년 5월 27일

BERT NLP transformer

reading papers

목록 보기

7/35

지금까지 스터디한 모델들에 대해서 간단하게 정리, 비교를 해보고자 한다. 😎

History

1. Seq2Seq 모델의 한계

BERT를 비롯한, Transformer 기반 모델이 나오게 된 것은, 기존 seq2seq 모델의 한계점 때문이다.
seq2seq 모델은 long term dependency(장기 의존성)문제와 parallelization 으로 인한 연산 속도 문제를 해결하지 못한다.

이를 극복하기 위한 self-attention(bi-directional contextualized rerpresentation)이 등장한다.

2. Transformer(2017)의 등장
encoder-decoder 구조, positional encoding, multi-head attention, output masking을 사용하여 의존성 문제, 연산 문제를 크게 극복한다.

3. BERT(2018)의 등장
Transformer 기반 encoding과 pretrain+finetuning 으로 NLP task의 성능을 크게 향상시킨다.

4. BERT 개선 방식
이러한 BERT 모델을 개선하기 위해 많은 연구가 진행되었는데, BERT 개선 방식에는 크게 3가지로 나뉜다.

Pretraining method 개선
AE(autoencoding) vs AR(autoregressive)
✅ AE(autoencoding)
- 전체 단어를 모두 보고 예측(bi-directional)
- 텍스트 생성(text generation) 성능 저조
- mask independence assumption
- 사전학습 / 파인튜닝 간 차이(discrepancy)
✅ AR(autoregressive)
- 이전 단어만 보고 예측(단방향)
✅ model efficiency 개선

Comparing Models

BERT(2018), RoBERTa(2019), XLNet(2019), ELECTRA(2020), DeBERTa(2020) 순으로 비교한다.

모델명	BERT(2018)	RoBERTa(2019)	XLNet(2019)	ELECTRA(2020)	DeBERTa(2020)
사전학습 objectives	Masked LM(MLM) + NSP	dynamic MLM, no NSP	autoregressive(AR), permutation LM	Generator(MLM) + Discriminator(replaced token detection)	Masked LM(MLM), No NSP
사전학습 데이터	BookCorpus + Wikipedia (16GB)	BERT dataset + CC-News + OpenWebText + Stories (160GB)	BERT dataset + Giga5 + ClueWeb 2012-B + Common Crawl(110GB)	BERT와 동일(Large model은 XLNet과 동일)	Wikipedia + BookCorpus + OPENWEBTEXT + STORIES(78GB)
핵심 포인트	양방향 문맥 학습을 위한 2가지 사전학습 태스크(MLM, NSP) 제시	(1) 다운스트림 태스크 성능 향상을 위한 BERT의 design choice를 새로 제시 (2) No NSP, 동적 마스킹 방법 제시	(1) 기존 AR,AE 모델링의 한계를 극복하는 generalized AR 방법론 제시(AR+양방향 문맥)	(1) BERT MLM 방식의 비효율성 극복, 효율적 사전학습 연산 모델 제시 (2) BERT의 사전학습-파인튜닝 간 차이 극복 (3) GAN-like 구조 제안(Generator, Discriminator)	(1) disentangled attention (2) enhanced mask decoder (3) virtual advarsarial training

choonsikmom

춘식이랑 함께하는 개발일지.. 그런데 이제 먼작귀를 곁들인

Transformer 기반 최신 NLP 모델 비교

reading papers

History

Comparing Models

DeBERTa 논문 리뷰

ELMo 논문 리뷰

0개의 댓글