profile
한성대학교 네이버 AI Tech 5기 NLP
post-thumbnail

[SLIP 논문 리뷰]SLIP: Self-supervision meets Language-Image Pre-training

Task: Vision-LanguageInput: Image, TextOutput: Image Representation, Text Representation기존의 CLIP, AlIGN의 같은 모델은 각 Encoder의 CLS 토큰을 사용하여 Contrastive Le

2023년 11월 18일
·
0개의 댓글
·
post-thumbnail

[FILIP 논문 리뷰]FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING

FILIP 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Zero-shot Image Classification 2. 기존 연구 한계 2-1. Globa

2023년 11월 5일
·
1개의 댓글
·
post-thumbnail

[ALBEF 논문 리뷰]Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

ALBEF 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Visual Entailment, Visual Question Answering, Natural L

2023년 10월 18일
·
0개의 댓글
·
post-thumbnail

[LLaVA 논문 리뷰](Visual Instruction Tuning)

LLaVA 1. 논문이 다루는 Task Task: Text Generation Input: Image, Text Output: Text 2. 기존 연구 한계 2-1. Text-Only 논문에서는 시작하자마자 인간은 다양한 신호로 세계를 관찰하고 있다는 점을 언급한다. 또한 최근에 나온 모델들인 Flamingo, BLIP-2 같은 모델은 비록 언어에...

2023년 10월 11일
·
1개의 댓글
·
post-thumbnail

[VATT 논문 리뷰](VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text)

Task: Image,Video,Audio ClassificaionInput: Video, Audio, TextOutput: Class

2023년 10월 10일
·
2개의 댓글
·
post-thumbnail

[ImageBind 논문 리뷰](One Embedding Space To Bind Them ALL)

A single image can bind together many experiences – an image of a beach can remind us of the sound of waves, the texture of the sand, a breeze, or eve

2023년 9월 24일
·
6개의 댓글
·