[논문리뷰 | NLP ] DeBERTa: Decoding-enhanced BERT with Disentangled Attention (2020) Summary

9e0na·2024년 5월 13일
0

[논문리뷰]

목록 보기
42/42
post-thumbnail

Title

  • DeBERTa: Decoding-enhanced BERT with Disentangled Attention (2020)

이 논문 리뷰는 DSBA | 김수빈님의 발표자료를 참고해서 작성하였습니다.


1. Introduction

1.1. 논문이 다루는 Task

  • Distentangled attentionEnhanced mask decoder를 사용하여, BERT의 성능을 개선한, DeBERTa를 소개함

a. Distentangled attention

  • content와 position vector를 따로 표현
    -> BERT에서는 content와 positiona embedding을 더하여 input layer로 사용
  • 상대적 위치정보로 단어 간의 relation을 학습할 수 있음
  • Attention 계산 시, input representation을 content와 positional 벡터로 분리하여 표현하고 학습
  • 두 정보를 독립적으로 처리함으로써 보다 정밀한 언어 이해를 가능케 함

📕 1번 content to content

  • position 정보를 반영하지 않은 content간의 Attention
  • token i에 대한 token j들 간의 의미 관계

📙 2번 content to position

  • Query content i와 content i로부터 Key content j의 상대적 위치를 고려한 Attention
  • token i에 대해서 token j들의 상대적 위치 관계를 학습하여 주목해야할 상대 position 학습

📔 3번 position to content

  • content j로부터 Query content i의 상대적 위치와 Key content j를 고려한 Attnetion
  • token i의 상대적 위치가 변했을 때, 그 position에 대해서 어떤 content j와 관련이 많은가를 학습

🎈2번3번을 통해 기준 Query token을 content 정보와 position 정보로 분리해서 content로부터 먼저 position을 학습한 뒤, position으로부터 content를 한번 학습해서 content와 position 이 둘의 관계가 복합적으로 잘 학습하게 만듬

📗 4번 position to position

  • 모든 입력 Sequence에 대해서 유의미한 정보를 제공하지 않는 불필요한 computation으로 사용 X

b. Enhanced mask decoder

  • DeBERTa도 BERT와 동일하게 MLM을 이용해서 학습
  • 위의 Disentagled에서 이미 related 위치는 고려했지만, predictiond에서 중요한 각 단어의 absolute한 위치는 고려하지 못함
    -> 특히 뉘앙스 같은 것은 Absolute Position 정보가 중요함
  • 각 단어의 absolute한 위치 정보를 softmax 단 바로 직전에 합침
    -> BERT에서는 Input layer에 Absolute position 정보를 추가함
    -> 마지막 n개의 Transformer Block에 대해서 이전 layer의 output에 Absolute Position Embedding을 더하여 해당 Layer의 input으로 사용 (이때 n=1 or 2)

1.2. 기존 연구 한계점

  • 기존의 BERT와 그 변형들은 주로 엔지니어링적인 개선에 초점을 맞춤
  • 하지만 이러한 모델들은 단어의 내용과 위치 정보를 효과적으로 구분하지 못하고, 마스크된 언어 모델링에서 절대적 위치 정보를 무시하는 경향이 있어, NLU, NLG Task의 효율성과 정확성이 제한적

2. Related Work

a. Transformer

  • Absolute Positional Embedding
    📕 어떤 입력 문장이더라도 각 단어의 위치의 Positional Embedding값은 동일한 값 사용
    📕 단어의 위치 정보를 특정 차원의 벡터로 표현하는 것 -> Positional Embedding
    📕 Transformer에서는 각 단어의 임베딩 벡터에 Positional Information을 더하여 모델의 Input으로 사용

b. BERT

  • BERT 이후로 Masked Language Modeling을 많이 사용
  • BERT에서는 Input layer에 Absolute position 정보를 추가함

3. 제안 방법론

3.1. Main Idea

  • DeBERTa는 Disentangled attentionEnhanced mask decoder를 도입함으로써, 단어의 내용과 위치 정보를 분리하여 처리
  • 이는 각 단어 간의 관계를 더 정확하게 모델링하고, 마스크된 언어 모델링의 정확도를 향상시키는 데 중점을 둠

3.2. Contribution

  • Disentangled Attention
    • 단어의 내용(content)과 위치(position) 정보를 별도로 처리하여, 더 정밀한 언어 이해를 가능하게 함
  • Enhanced Mask Decoder
    • 마스킹된 언어 모델링에서 절대 위치 정보를 고려하여, 문맥 파악의 정확성을 개선
  • Virtual Adversarial Training
    📘 모델의 일반화 능력을 향상시키는 새로운 훈련 방법을 제안
    📘 Robustness을 증가시키는 데 초점을 맞추며, 모델의 예측이 크게 달라지지 않도록 만듬
  • Scale Invariant Fine-Tuning (SIFT)
    📔 fine-tuning 단계에서 모델의 안정성과 성능을 향상시키는 새로운 기술을 도입
    📔 Layer Noramlization 기법에 영감을 받아, SIFT 알고리즘을 사용
    📔 SIFT는 word embedding vector를 확률 vector로 normalization 하고, normalize 된 word embedding에 preturbation을 적용
    -> Fine-tuend model의 성능이 상당히 향상

4. 실험 및 결과

4.1. Dataset


  • model 학습을 위한 paramter

4.2. Baseline

a. Base model

  • base 모델에서도 좋은 성능을 보임
  • BERT-base 따름 (L=12, H=768, A=12)
  • DeBERTa: 78G 학습 데이터
  • XLNet, ROBERTa: 160G 학습 데이터


    b. Main Result on NLU Tasks

  • GLUE에서 다른 large model에 비해 좋은 성능을 보임


    c. Ablation Study

  • Disentangled Attention을 이루는 각 요소와 Absolute Position을 더한 Enhanced Mask Decoder(EMD)가 의미가 있음을 입증
  • 특히 Position to Content가 없었을 때 성능이 하락한 것을 보아 이것이 매우 중요함

4.3. 결과

  • content, position embedding을 분리하여 Disentangled Attention MechanismEnhanced Mask Decoder를 통한 BERT와 RoBERTa 대비 성능 향상
  • Normalized word embedding에 pertubation을 적용하는 SiFT를 제시
  • 수 많은 실험을 통해, 본 방법론이 타당함을 보여줌

4.4. 결론 (배운점)

  • BERT 파생 논문을 읽으면서 새롭게 제시한 테크닉이 있어서 신선했음
  • BERT의 입력 Layer에 사용되는 Positional Embedding을 Transformer Encoder Query, Key, Value에 적용시켜서 신기했음.
  • Positional, Input vector의 양방향성을 고려했다는 점이 인상깊었음
  • 2020년도 논문은 T5 이후 초거대모델이 나와야 SOTA를 달성할 수 있을 것이라는 암묵적 기대가 있었는데, 이 논문은 기술을 통해 성능을 능가한 점이 매우 인상 깊음

📚 References

profile
디지털 마케터가 되기 위해 [a-zA-Z]까지 정리하는 거나입니다 😊

0개의 댓글