Abstract
Goal: 1600가지 언어 데이터셋을 활용해서 기존의 PMM 모델들 performance 검증
Challenge: 1) 소량 2) narrow domain
Result: XLM-R good
Introduction
- adpatation method
- Continued pretraining :
MLM: 타겟 단일 언어
TLM: 병렬 corpus 만든다
+{M:T}LM : 타겟, 병렬 번갈아 가면서 학습
- Vocab extension
- subword 사용해서 OOV 문제 해결하는 것에 착안.
- 추가적으로 subword 사용하면 어떨까???
- Adapters
- transfer learning 돕기 위한 적은 수의 parameter 가진 layer
- MAD-X
- language adapter, task adapter
- 각 언어에 대한 어댑터를 추가해서 전이학습 수행 그런 다음 task adapter 추가해서 튜닝. 언어의 general한걸, task specific 둘다 하겠단 뜻이겠구나?
=> 그냥 멀티태스크가.... 아닌가????
Method
Result
Case study
- 언어 유사성 많이 의존한다. => speech도 그러는지 확인해보고 싶다!!!!!!
- general 한 데이터로 사전학습했을 때 성능이 더 좋았다.
오호......
근데 chatGPT는 왜케 다 잘행...?
그럼 그게 잘 맞는지를 확실히 봐야하는데...
아근데 out-of-domain 데이터셋을 이용해서 실험 더 보충하는거 실험도 있잖아!!!!!!