Parameter-Efficient Transfer Learning for NLP 정리
연구 동기
- 전이 학습은 크게 두 가지로 나뉜다
- features based transfer learning
- 사전 학습된 네트워크에서 헤드를 제거한 뒤 백본을 고정시킨다. 그 뒤 새로운 작업에 적합한 헤드를 부착하여 학습
- downstream 작업을 위한 데이터 세트가 작을 때 효과적
- 미세 조정
- 모델 전체 파라미터를 업데이트
- downstream 작업을 위한 데이터 세트가 클 때 효과적
- 위 두 방식보다 더 적은 수의 파라미터를 업데이트하면서 두 방식만큼 효과적인 전이 학습 방식이 필요함
모델 아키텍처
- 사전 학습된 BERT에 어댑터 모듈을 추가함
- 어댑터 모듈
- 트랜스포머 레이어 내부에 위치하는 모듈
- feedforward 레이어의 출력을 입력으로 받음
- 전이 학습 때, 이 모듈의 파라미터와 normalization 파라미터만 업데이트하고 나머지 파라미터는 고정시킴
- feedforward 레이어를 통해 m 차원의 벡터에 맵핑한 뒤 비선형성을 추가하고 다시 d 차원의 벡터에 맵핑
- m 차원의 벡터에 맵핑하는 이유: m<<d 이도록 m을 설정하면 파라미터 수를 줄일 수 있음
- 내부적으로 residual connection이 있어서, 어댑터 모듈의 파라미터를 0에 가깝게 초기화하면 near-identity 함수가 됨
- near-identity 함수로 초기화했을 때 안정적으로 학습하는 것을 실험적으로 확인
결과
- 전체 모델 파라미터의 3% 정도만 학습하고도 미세 조정한 것의 성능과 비슷하게 나옴
- 표본 효율성에 대한 내용은 찾을 수 없었다
- 불안정한 학습을 보이기도 함
- 이 때문에 GLUE 벤치마크를 구성하는 작업에 학습할 때, 다섯 개의 random seed를 사용한 뒤 제일 좋은 성능을 내는 모델을 골랐다고 한다. 미세 조정 방법보다 불안정한 건지 아니면 해당 작업이 유난히 까다로워서 미세 조정을 했을 때도 불안정했는지 모르겠다.