[LGaimers] 딥러닝 - (6) SSL

govldbstj·2023년 1월 25일

AI BERT DL GPT LGAimers ML ssl

0

23LGAimers

목록 보기

21/21

< self-supervised learning and large-scale pre-trained models >

대규모 데이터를 별도의 label없이 입력의 일부를 예측 대상으로 삼아 학습하는 모델

1. 자가지도학습

: label이 필요 없는 input data를 활용해 학습

BERT

Pre-training of Deep Bidirectional Transformers for Language Understanding

MLM(Masked Language Modeling) task
-> 마스크 씌워진 단어 맞추기
: k = 15% (마스킹된 단어의 퍼센티지)
k가 너무 적으면 (마스킹이 너무 적게 되어있으면) 학습하는 데에 시간이 너무 길게 걸리고 k가 너무 크면 문맥에 맞추어 대답을 못하게 된다.
-> 어떻게 학습할까?
80%는 mask 토큰으로 대체해서 학습하고, 10%는 랜덤한 단어를 배치해 학습하고, 10%는 mask없이 원래의 단어를 도출해내도록 학습한다.
NSP(Next Sentence Prediction) task
-> 특정 문장이 대상 문장에 대해 선행되는지의 여부를 판단하는 task

GPT

Generative Pre-Training Task

엄청 방대한 텍스트로 학습시켜둔 language model, zero-shot setting이 가능 (학습 데이터 없이 결론을 도출함)

ajou software 20

이전 포스트

[LGaimers] 딥러닝 - (5) transformer

0개의 댓글