Task: Vision-LanguageInput: Image, TextOutput: Image Representation, Text Representation기존의 CLIP, AlIGN의 같은 모델은 각 Encoder의 CLS 토큰을 사용하여 Contrastive Le
FILIP 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Zero-shot Image Classification 2. 기존 연구 한계 2-1. Globa
ALBEF 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Visual Entailment, Visual Question Answering, Natural L
LLaVA 1. 논문이 다루는 Task Task: Text Generation Input: Image, Text Output: Text 2. 기존 연구 한계 2-1. Text-Only 논문에서는 시작하자마자 인간은 다양한 신호로 세계를 관찰하고 있다는 점을 언급한다. 또한 최근에 나온 모델들인 Flamingo, BLIP-2 같은 모델은 비록 언어에...
Task: Image,Video,Audio ClassificaionInput: Video, Audio, TextOutput: Class
A single image can bind together many experiences – an image of a beach can remind us of the sound of waves, the texture of the sand, a breeze, or eve