Parameter-Efficient Transfer Learning for NLP 정리

Plato·2023년 12월 30일
0

딥러닝

목록 보기
11/21

연구 동기

  • 전이 학습은 크게 두 가지로 나뉜다
    • features based transfer learning
      • 사전 학습된 네트워크에서 헤드를 제거한 뒤 백본을 고정시킨다. 그 뒤 새로운 작업에 적합한 헤드를 부착하여 학습
      • downstream 작업을 위한 데이터 세트가 작을 때 효과적
    • 미세 조정
      • 모델 전체 파라미터를 업데이트
      • downstream 작업을 위한 데이터 세트가 클 때 효과적
  • 위 두 방식보다 더 적은 수의 파라미터를 업데이트하면서 두 방식만큼 효과적인 전이 학습 방식이 필요함

모델 아키텍처

  • 사전 학습된 BERT에 어댑터 모듈을 추가함
  • 어댑터 모듈
    • 트랜스포머 레이어 내부에 위치하는 모듈
      • feedforward 레이어의 출력을 입력으로 받음
    • 전이 학습 때, 이 모듈의 파라미터와 normalization 파라미터만 업데이트하고 나머지 파라미터는 고정시킴
    • feedforward 레이어를 통해 mm 차원의 벡터에 맵핑한 뒤 비선형성을 추가하고 다시 dd 차원의 벡터에 맵핑
      • mm 차원의 벡터에 맵핑하는 이유: m<<dm << d 이도록 mm을 설정하면 파라미터 수를 줄일 수 있음
    • 내부적으로 residual connection이 있어서, 어댑터 모듈의 파라미터를 0에 가깝게 초기화하면 near-identity 함수가 됨
      • near-identity 함수로 초기화했을 때 안정적으로 학습하는 것을 실험적으로 확인

결과

  • 전체 모델 파라미터의 3% 정도만 학습하고도 미세 조정한 것의 성능과 비슷하게 나옴
  • 표본 효율성에 대한 내용은 찾을 수 없었다
    • 직관적으로는 적은 수의 파라미터를 업데이트하니 표본 효율적일 거 같다
    • On the Effectiveness of Adapter-based Tuning for
      Pretrained Language Model Adaptation
      논문에 의하면 downstream 작업의 데이터 세트의 크기가 작거나 다중 언어 작업일 때, 미세 조정 방식보다 더 성능이 좋았음. 또한 과적합과 학습률 변화에 강인했다고 함. 과적합에 강인하다면 표본 효율적일 것으로 추측. 표본의 크기가 작을 때 과적합이 쉽게 일어나기 때문.
  • 불안정한 학습을 보이기도 함
    • 이 때문에 GLUE 벤치마크를 구성하는 작업에 학습할 때, 다섯 개의 random seed를 사용한 뒤 제일 좋은 성능을 내는 모델을 골랐다고 한다. 미세 조정 방법보다 불안정한 건지 아니면 해당 작업이 유난히 까다로워서 미세 조정을 했을 때도 불안정했는지 모르겠다.

0개의 댓글