Parameter-Efficient Transfer Learning for NLP 정리

Plato·2023년 12월 30일

0

딥러닝

목록 보기

11/21

연구 동기

전이 학습은 크게 두 가지로 나뉜다
- features based transfer learning
  - 사전 학습된 네트워크에서 헤드를 제거한 뒤 백본을 고정시킨다. 그 뒤 새로운 작업에 적합한 헤드를 부착하여 학습
  - downstream 작업을 위한 데이터 세트가 작을 때 효과적
- 미세 조정
  - 모델 전체 파라미터를 업데이트
  - downstream 작업을 위한 데이터 세트가 클 때 효과적
위 두 방식보다 더 적은 수의 파라미터를 업데이트하면서 두 방식만큼 효과적인 전이 학습 방식이 필요함

모델 아키텍처

사전 학습된 BERT에 어댑터 모듈을 추가함
어댑터 모듈
- 트랜스포머 레이어 내부에 위치하는 모듈
  - feedforward 레이어의 출력을 입력으로 받음
- 전이 학습 때, 이 모듈의 파라미터와 normalization 파라미터만 업데이트하고 나머지 파라미터는 고정시킴
- feedforward 레이어를 통해 $m$ 차원의 벡터에 맵핑한 뒤 비선형성을 추가하고 다시 $d$ 차원의 벡터에 맵핑
  - $m$ 차원의 벡터에 맵핑하는 이유: $m << d$ 이도록 $m$ 을 설정하면 파라미터 수를 줄일 수 있음
- 내부적으로 residual connection이 있어서, 어댑터 모듈의 파라미터를 0에 가깝게 초기화하면 near-identity 함수가 됨
  - near-identity 함수로 초기화했을 때 안정적으로 학습하는 것을 실험적으로 확인

결과

전체 모델 파라미터의 3% 정도만 학습하고도 미세 조정한 것의 성능과 비슷하게 나옴
표본 효율성에 대한 내용은 찾을 수 없었다
- 직관적으로는 적은 수의 파라미터를 업데이트하니 표본 효율적일 거 같다
- On the Effectiveness of Adapter-based Tuning for
  Pretrained Language Model Adaptation 논문에 의하면 downstream 작업의 데이터 세트의 크기가 작거나 다중 언어 작업일 때, 미세 조정 방식보다 더 성능이 좋았음. 또한 과적합과 학습률 변화에 강인했다고 함. 과적합에 강인하다면 표본 효율적일 것으로 추측. 표본의 크기가 작을 때 과적합이 쉽게 일어나기 때문.
불안정한 학습을 보이기도 함
- 이 때문에 GLUE 벤치마크를 구성하는 작업에 학습할 때, 다섯 개의 random seed를 사용한 뒤 제일 좋은 성능을 내는 모델을 골랐다고 한다. 미세 조정 방법보다 불안정한 건지 아니면 해당 작업이 유난히 까다로워서 미세 조정을 했을 때도 불안정했는지 모르겠다.

이전 포스트

Mixture-of-Experts with Expert Choice Routing 정리

다음 포스트

G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment 정리

0개의 댓글