# multi-modal
[SLIP 논문 리뷰]SLIP: Self-supervision meets Language-Image Pre-training
Task: Vision-LanguageInput: Image, TextOutput: Image Representation, Text Representation기존의 CLIP, AlIGN의 같은 모델은 각 Encoder의 CLS 토큰을 사용하여 Contrastive Le
[FILIP 논문 리뷰]FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING
FILIP 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Zero-shot Image Classification 2. 기존 연구 한계 2-1. Globa

[ALBEF 논문 리뷰]Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
ALBEF 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Visual Entailment, Visual Question Answering, Natural L

[LLaVA 논문 리뷰](Visual Instruction Tuning)
LLaVA 1. 논문이 다루는 Task Task: Text Generation Input: Image, Text Output: Text 2. 기존 연구 한계 2-1. Text-Only 논문에서는 시작하자마자 인간은 다양한 신호로 세계를 관찰하고 있다는 점을 언급한다. 또한 최근에 나온 모델들인 Flamingo, BLIP-2 같은 모델은 비록 언어에...
[VATT 논문 리뷰](VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text)
Task: Image,Video,Audio ClassificaionInput: Video, Audio, TextOutput: Class

[논문 리뷰] Conditional Prompt Learning for Vision-Language Models
(CVPR 2022) 각 입력 인스턴스에 따라 조건이 지정되는 조건부 프롬프트 학습이라는 새로운 개념을 도입하여 일반화에 강한 모델을 제안한 CoCoOp

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
이화여대 인공지능 학술 동아리 Euron 고급 심화 세션의 논문 리뷰 3주차 과제물 - VATT

[ImageBind 논문 리뷰](One Embedding Space To Bind Them ALL)
A single image can bind together many experiences – an image of a beach can remind us of the sound of waves, the texture of the sand, a breeze, or eve

[논문 리뷰] ImageBind: One Embedding Space To Bind Them All
(CVPR 2023) image, text, audio, depth, thermal, IMU data 등 6가지 다른 modality의 joint embedding을 학습하는 모델인 ImageBind

[논문 리뷰] Multimodal Learning with Transformers: A Survey
Multimodal Learning with Transformers: A Survey 논문 리뷰

[논문리뷰] PAESE, MixMatch, AMIGOS
PARSE-Pairwise Alignment of Representations in Semi-Supervised EEG Learning for Emotion Recognition (Guangyi Zhang et al., 2022) 👉🏻 PARSE GitHub

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision
Abstract 기존 CV 분야의 SOTA 모델은 사전에 정의된 object categories들의 데이터셋만을 예측하도록 학습되었다. 이러한 supervised 부분이 generality와 usability를 제한한다. 추가적인 labeled data가 필요하기

[논문 리뷰] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation
최근 센서 융합 3D 객체 검출은 point-level fusion을 기반카메라 이미지의 semantic features를 LiDAR 포인트 클라우드의 최전면에 칠하는 방법으로 LiDAR 기반 객체 검출을 수행camera-to-LiDAR projection은 각 형식의
EV-Action: Electromyography-Vision Multi-Modal Action Dataset
본 논문에서는 광학 추적 기반의 Vicon 시스템을 이용하여 더 높은 샘플링 속도로 더 높은 정확도를 갖는 스켈레톤 데이터를 수집하였다. 또한, EMG 신호 데이터를 수집하고 전처리하는 과정을 통해 행동 분석을 위한 멀티 모달 데이터셋, EV-Action을 제시한다.

[CLIP 논문 리뷰](Learning Transferable Visual Models From Natural Language Supervision)

[논문 리뷰] VL-LTR_ Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition
.

[논문 리뷰] ConZIC_ Controllable Zero-shot Image Captioning by Sampling-Based Polishing
.

2022, End-to-End Audio-Visual Neural Speaker Diarization [2022, Interspeech]
MISP baseline, paper, githubmultimodal inputsuses audio features, lip regions of interest, and i-vector embeddingsI-vectors are the key point to solve

2023, WHU-Alibaba [MISP 2022]
Figure SYSTEM DESCRIPTION Visual front-end modified ResNet18-3D model for processing lip videos They make three changes to the standard Pytorch imp