[NLP] On Transferability of Prompt Tuning for Natural Language Processing (NAACL, 2022)

누렁이·2023년 5월 10일
0

NLP

목록 보기
8/13

paper: https://aclanthology.org/2022.naacl-main.290/
velog: https://velog.io/@zvezda/On-Transferability-of-Prompt-Tuning-for-Natural-Language-Processing-NAACL-2022


Abstract

  • prompting tuning의 장점? :
  • 단점: 파라미터 수가 적어서 convergence가 오래 걸린다.
  • 해결책: prompt transfer 다른 모델 두개를 두고 or 다른 태스크를 두고 실험하는 거 시도
  • 결과: 비슷한 유형의 task면 prompt task가 충분히 의미가 있다.
  • 해석: 여러개 메트릭 사용해봤을 때, 향후 적용할 수 있는 메트릭 제안 (zero-shot)

Introduction

  • Prompt tuning이란?

    • vertual token이지만 learnable하게 만들어서 걔만 학습시킨다. 우리도 이거 이용해볼 수 있는 방법이 있나????? 하는 방법 찾아보자! 이를 다른 모델에 적용? multitask에 좋을 수도 있겠는걸????? cross-task!!!!! 오오오오오 우리꺼 같은거에서 하면 짱이겠는걸?

    • cross-task transfer

    • 크로스 모달할때도 충분히 쓰겠네~~!!

  • 비슷한 유형일 때 효과가 있다.

  • interpretability를 향상시킬 수있는 metric 제안?

Related work

  • hard prompting
    • 단점: verbalizer가 필수적으로 따라붙어야 하는데, verbalizer setting에 따라 성능이 크게 바뀜 prompting도!
  • prefix tuning
  • soft tuning
    • 데이터가 적은 경우에는 이게 더 낫다!! 우리!!!!!
    • 도메인이 달라질 때도 robust하다!
  • soft prompt를 pretrained해보자! => 이거 어떻게 사용하는지 알아보자!!!!!

Preliminary

  • 똑같은 차원으로 넣구나... 오..... 오.... 걔네는 그냥 냅두고... 오오... 우리가 이런게 더 낫겠다...... 추가로 mask 토큰을 넣어서 원래 의도대로 y가 들어갈 수 있게 학습

그럼 이전과 다른점이 뭐지????


가능한 pair를 매칭한다는게 뭐지? 세개씩이 뭐지????

어떤 뉴런이 켜지고 꺼지고를 봐서 그걸 overlap이 어떻게 되는지 확인해본다 이걸로 성능 어떻게 향상되는지 본다는 거구나?
꺼지고 켜지거를 어떻게 알아???????????
레이어 여러개 있으면 하나씩 고정시키고 해가지고 실험을 해본거구나?

레이어를 고정해가지고 이런 비교도 해볼 수 있구나 black box를 좀 설명하는 느낌!


profile
왈왈

0개의 댓글