기존의 모델들의 문제점
이러한 한계를 극복하고자 XLNet이 등장한다.
512 token으로만 학습하는 한계를 벗어나기 위해 도입. 기존의 positional encoding(Ref)을 relative하게 한다고 한다.
-> Sequenec 길이 제한이 없어졌다.
[MASK]를 없앴다. 대신 순열(Permutation)을 활용해 순서를 섞은 데이터로 학습을 진행해서 순서에 종속되지 않도록 학습을 유도했다.
GLUE에서 이전 모델들보다 더 좋은 성능을 냈다.
BERT와 동일한 구조지만 학습 방법에서 변화점을 찾음.
BERT와 GPT의 학습 방법을 함께 적용해서 학습하자.
BERT, RoBERTa보다 좋았다고 한다.
Transformer Encoder-Decoder 통합 LM으로 현재 가장 좋은 LM.
여러 어절에 대해 Masking을 하고 한꺼번에 복원한다.
GLUE에서 제일 좋은 성능의 모델이다.
대화만을 위한 LM.
Transformer encoder 1개와 Transformer decoder 여러개로 구성된다.
윤리성과 같이 인간의 가치판단적인 면이 제어 가능한 LM.
"The chicken tastes delicious"라는 문장을 원한다고 가정해보자.
그런데 모델의 결과는 마지막 어절로 ok를 준다. PPLM에서는 backpropagation을 통해서 chicken의 vector를 수정해서 마지막 어절로 delicous가 나오도록 유도를 한다.
장점: gradient update가 발생하지 않고 단순히 출력 vector를 수정해 원하는 출력 유도.
bias가 제거된 데이터만으로 학습된 LM은 반드시 bias가 제거된 출력을 하지 않는다. 따라서 PPLM과 같은 방법으로 현재 LM의 한계성을 극복한다.
Cross-modal reasoning language model
Learning Cross-Modality Encoder Representations from Transformers.
Image와 Language 정보를 각각 Embedding하여 해당 정보를 이미지와 자연어에 대한 정보를 생성하는 Cross-modality Encoder에 각각 모두 준다.
위 예시처럼 자연어에 대한 Question에 이미지, 자연어적 대답을 모두 할 수 있었다고 한다.
BERT와 구조는 동일하다. 단지, 이미지와 자연어를 [SEP]를 기준으로 묶어서 학습했을 뿐이다. 이전과 동일하게 CLS token에 classifier를 부착해서 자연어와 이미지가 합쳐진 정보에 대한 분류가 가능하도록 설계됐다.
부스트캠프에서 벌써 3번째로 맞이하는 그 모델이다.
이미지를 생성하기 위해서는 이미지 토큰을 학습해야 한다. (256, 256, 3)의 이미지만 하더라도 매우 큰 사이즈이기 때문에 위와 같은 VQ-VAE를 통해서 차원 축소를 진행한다. VQ-VAE를 매우 간략화한 도식도이다.
이렇게 이미지를 latent vector화 할 수 있게 되면 나머지는 GPT와 동일하다.
GPT가 다음 문장을 예측하듯이 Dall-E도 256 token의 Text Embedding 뒤에 올 Image Embedding을 예측하도록 Autoregressive하게 학습한다.