[LGaimers] 딥러닝 - (6) SSL

govldbstj·2023년 1월 25일
0

23LGAimers

목록 보기
21/21
post-thumbnail

< self-supervised learning and large-scale pre-trained models >

대규모 데이터를 별도의 label없이 입력의 일부를 예측 대상으로 삼아 학습하는 모델

1. 자가지도학습

: label이 필요 없는 input data를 활용해 학습

BERT

Pre-training of Deep Bidirectional Transformers for Language Understanding

  1. MLM(Masked Language Modeling) task
    -> 마스크 씌워진 단어 맞추기
    : k = 15% (마스킹된 단어의 퍼센티지)
    k가 너무 적으면 (마스킹이 너무 적게 되어있으면) 학습하는 데에 시간이 너무 길게 걸리고 k가 너무 크면 문맥에 맞추어 대답을 못하게 된다.
    -> 어떻게 학습할까?
    80%는 mask 토큰으로 대체해서 학습하고, 10%는 랜덤한 단어를 배치해 학습하고, 10%는 mask없이 원래의 단어를 도출해내도록 학습한다.

  2. NSP(Next Sentence Prediction) task
    -> 특정 문장이 대상 문장에 대해 선행되는지의 여부를 판단하는 task

GPT

Generative Pre-Training Task

엄청 방대한 텍스트로 학습시켜둔 language model, zero-shot setting이 가능 (학습 데이터 없이 결론을 도출함)

profile
ajou software 20

0개의 댓글