Attention Is All You Need 정리
Improving Language Understanding by Generative Pre-Training 정리
CLIP 참고 영상
CLIP: Connecting Text and Images
Traditional Supervised Image Classifiers
한계
- Fine-Tuning 없이 새로운 downstream task에 적용하기 어려움 -> 모델의 일반화 한계
- 새로운 downstream task에 적합한 다량의 이미지와 레이블링 작업 필요
- 이미지 수집 및 정답 레이블 생성에 많은 인력과 비용 요구
- 벤치마크 데이터셋 성능과 실제 현실에서 수집한 데이터셋 성능과는 차이 존재
- 벤치마크 데이터셋에 최적화되어 그 외 데이터셋에서는 저조한 성능을 보임
What We Need
- Fine-tuning이 필요 없는 일반화된 모델
- 이미지 수집 및 정답 레이블 생성에 적은 노력이 드는 모델
- 벤치마크 데이터셋과 현실 데이터셋에서 좋은 성능을 보이는 강건한 모델
CLIP : Contrastive Language-Image Pre-training
Using Image-Text Pair
CLIP은 이미지와 이미지를 설명하는 텍스트를 결합한 image-text pair를 입력으로 사용
-> 이미지와 언어에 대한 representation을 함께 학습하여 일반화된 특징 학습 가능
Creating a sufficiently large dataset
![](https://velog.velcdn.com/images/yoolumiere/post/936c8d95-7ab7-4363-9053-f05b9385f3ad/image.png)
Selecting an efficient pre-training method
Image captioning과 같은 모델 사이즈가 크며 학습 및 예측 시간이 길어 비효율적인 방법 대신
Contrastive learning을 적용하여 pre-training 진행
![](https://velog.velcdn.com/images/yoolumiere/post/ccae0162-1f8e-4c78-9c4b-a67ec7fb2311/image.png)
![](https://velog.velcdn.com/images/yoolumiere/post/3e445b38-4657-4215-88a6-f0a4a9a4d4c8/image.png)
CLOVA 논문 리딩했던 CLUE에도 Contrastive Learning이 Keyword였다
CLUE 논문 리뷰
-> 한 번도 본 적 없는 특정 하위 문제의 데이터셋에 대해 예측을 수행하는 Zero-shot prediction에서도 우수한 성능
Methodology
![](https://velog.velcdn.com/images/yoolumiere/post/0f0ed205-0fa9-4faa-ba41-071e230f0ab1/image.png)
Contrastive pre-training
![](https://velog.velcdn.com/images/yoolumiere/post/4cea3e2c-5c4d-4a8a-9160-beaf483568e8/image.png)
배치 단위로 이루어진 N개의 이미지와 텍스트를 각각 인코더에 통과시켜 임베딩 벡터 산출
- Image Encoder : Modified ResNet / Vision Transformer
- Text Encoder : Transformer
이미지와 텍스트 벡터 간의 내적을 통해 코사인 유사도 계산
- Pair에 해당하지 않는 이미지 혹은 텍스트는 서로 다르다는 전제 하에 cross-entropy loss 계산
![](https://velog.velcdn.com/images/yoolumiere/post/40e667e1-0609-423e-aa7d-7b02af6389c2/image.png)
![](https://velog.velcdn.com/images/yoolumiere/post/d66a5e59-8495-4add-9487-2c86dccd643e/image.png)
Create dataset classifier from label text
- 적용하고자 하는 특정 하위 문제의 데이터셋 레이블을 텍스트(구)로 변환
- 이후 학습된 텍스트 인코더에 통과시켜 텍스트 임베딩 벡터값 산출
Use for a zero-shot prediction
- 예측하고자 하는 이미지를 학습된 이미지 인코더에 통과시켜 이미지 임베딩 벡터값 산출
- 텍스트 임베딩 벡터와 코사인 유사도를 계산하여 상대적으로 높은 값을 갖는 텍스트 선택
Fine-Tuning 과정 없이도, 처음 보는 이미지에 대해 예측 가능