GPT, ALBERT, RoBERTa 간단 특징

Hyun·2022년 6월 27일
0

NLP

목록 보기
7/8
  • Auto regression
    • 특징 : generation, transformer의 decoder부분. 자연어 생성에 강함
    • GPT
    • XLNet
  • Encoder
    • 특징 : understanding에 강함
    • BERT
    • ALBERT
    • RoBERTa
    • Electra : bert에 task를 바꿔볼까?

GPT

GPT : Generative Pre-trained Transformer

  • Transformer decoder

  • Auto-regressive model : 스스로 반복적으로 생성해내는 모델

    • left to right transformers
    • BERT가 모든 토큰에 대해서 attention을 계산하는 것에 반해서(bi-directional), GPT는 Auto-Regressive인데 지금까지 앞에 나온 단어들을 기반으로 다음 단어를 예측하고, 그 예측 값을 다시 다음 단어를 구하기 위한 input에 넣는다.
  • GPT2

    • GPT와 아키텍처는 유사
    • vocab size up
    • layer가 더 쌓임 => 파라미터의 수가 매우 많아짐
    • embeddidng을 byte tokenization으로?
    • BERT로 분류 문제를 풀고싶을 때 labeled된 data가 적어도 1000개, 10000개가 필요하다.
    • GPT는 Meta Learning = 모델이 여러 task를 학습(특정 task x )하면서 학습하는 방법을 학습시키는 방식 ( learn to learn ) = 특정 task에 fine-tuning하지 않더라도 data 몇개만 가지더라도 모든 task를 다 풀 수 있지 않을까? ( Generation, QA, Machine Translation, Reading Comprehension, Summerization에 좋은 역량을 보임 )
    • Few-shot Learning : meta learning을 푸는 방식 중 하나

ALBERT

"A Lite BERT for Self-supervised Learning of Language Representations"

  • 기존 문제점
    • 모델 규모가 커지면 자원의 한계
    • 모델의 파라미터 수 증가가 성능과 완전 비례하지 않음
  • Parameter Reduction ( 파라미터 수를 감소시키면서 성능은 유지 = 건강한 파라미터 수 다이어트 )
    • Factorized embedding parameterization
      • 처음에 취한 방식 : input embedding dimension < hidden size
    • Cross layer parameter sharing : attention layer의 weight를 동일하게 쓰더라도 성능이 비슷하게 나왔다!
      • shared-attention
    • NSP : MASKED Language model 과 Next Sentence Prediction 방식으로 훈련을 시켰었는데, NSP task를 Sentence Order Prediction으로 바꿈!
    • Memory 사용량 down
    • Train Time down
    • 실제 Service할 때 잘 사용된다!!

RoBERTa

"A Robustly Optimized BERT Pretraining Approach"

  • 기존의 bert가 덜 학습되었다는 주장으로
  • 학습시간, 배치사이즈, 학습데이터 10배, 데이터 길이를 높임
  • NSP task 제거 : 모델이 embedding을 학습하는데 큰 의미가 없다
  • Masking Pattern 변화
    • 기존 : 문장 내 토큰 중 15% 중 80%는 mask, 10%는 그대로, 10%는 임의의 토큰으로 대체 => 미리 해놓고 들어감! => epoch가 될 때마다 (같은 문장 두세번째 훈련때마다 ) 문장의 패턴이 그대로 유지됨 => 문장의 다양성이 방해됨
    • 그때그떄 변경?
  • NLU에 강점

0개의 댓글