# multi-modal

23개의 포스트
post-thumbnail

[SLIP 논문 리뷰]SLIP: Self-supervision meets Language-Image Pre-training

Task: Vision-LanguageInput: Image, TextOutput: Image Representation, Text Representation기존의 CLIP, AlIGN의 같은 모델은 각 Encoder의 CLS 토큰을 사용하여 Contrastive Le

2023년 11월 18일
·
0개의 댓글
·
post-thumbnail

[FILIP 논문 리뷰]FINE-GRAINED INTERACTIVE LANGUAGE- IMAGE PRE-TRAINING

FILIP 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Zero-shot Image Classification 2. 기존 연구 한계 2-1. Globa

2023년 11월 5일
·
1개의 댓글
·
post-thumbnail

[ALBEF 논문 리뷰]Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

ALBEF 1. 논문이 다루는 Task Task: Vision-Language Input: Image, Text Output: Image-Text Retrieval, Visual Entailment, Visual Question Answering, Natural L

2023년 10월 18일
·
0개의 댓글
·
post-thumbnail

[LLaVA 논문 리뷰](Visual Instruction Tuning)

LLaVA 1. 논문이 다루는 Task Task: Text Generation Input: Image, Text Output: Text 2. 기존 연구 한계 2-1. Text-Only 논문에서는 시작하자마자 인간은 다양한 신호로 세계를 관찰하고 있다는 점을 언급한다. 또한 최근에 나온 모델들인 Flamingo, BLIP-2 같은 모델은 비록 언어에...

2023년 10월 11일
·
1개의 댓글
·
post-thumbnail

[VATT 논문 리뷰](VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text)

Task: Image,Video,Audio ClassificaionInput: Video, Audio, TextOutput: Class

2023년 10월 10일
·
2개의 댓글
·
post-thumbnail

[논문 리뷰] Conditional Prompt Learning for Vision-Language Models

(CVPR 2022) 각 입력 인스턴스에 따라 조건이 지정되는 조건부 프롬프트 학습이라는 새로운 개념을 도입하여 일반화에 강한 모델을 제안한 CoCoOp

2023년 9월 30일
·
0개의 댓글
·
post-thumbnail

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

이화여대 인공지능 학술 동아리 Euron 고급 심화 세션의 논문 리뷰 3주차 과제물 - VATT

2023년 9월 26일
·
0개의 댓글
·
post-thumbnail

[ImageBind 논문 리뷰](One Embedding Space To Bind Them ALL)

A single image can bind together many experiences – an image of a beach can remind us of the sound of waves, the texture of the sand, a breeze, or eve

2023년 9월 24일
·
6개의 댓글
·
post-thumbnail

[논문 리뷰] ImageBind: One Embedding Space To Bind Them All

(CVPR 2023) image, text, audio, depth, thermal, IMU data 등 6가지 다른 modality의 joint embedding을 학습하는 모델인 ImageBind

2023년 9월 17일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Multimodal Learning with Transformers: A Survey

Multimodal Learning with Transformers: A Survey 논문 리뷰

2023년 9월 11일
·
0개의 댓글
·
post-thumbnail

[논문리뷰] PAESE, MixMatch, AMIGOS

PARSE-Pairwise Alignment of Representations in Semi-Supervised EEG Learning for Emotion Recognition (Guangyi Zhang et al., 2022) 👉🏻 PARSE GitHub

2023년 9월 4일
·
0개의 댓글
·
post-thumbnail

[논문 리뷰] Learning Transferable Visual Models From Natural Language Supervision

Abstract 기존 CV 분야의 SOTA 모델은 사전에 정의된 object categories들의 데이터셋만을 예측하도록 학습되었다. 이러한 supervised 부분이 generality와 usability를 제한한다. 추가적인 labeled data가 필요하기

2023년 8월 6일
·
1개의 댓글
·
post-thumbnail

[논문 리뷰] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

최근 센서 융합 3D 객체 검출은 point-level fusion을 기반카메라 이미지의 semantic features를 LiDAR 포인트 클라우드의 최전면에 칠하는 방법으로 LiDAR 기반 객체 검출을 수행camera-to-LiDAR projection은 각 형식의

2023년 6월 22일
·
0개의 댓글
·

EV-Action: Electromyography-Vision Multi-Modal Action Dataset

본 논문에서는 광학 추적 기반의 Vicon 시스템을 이용하여 더 높은 샘플링 속도로 더 높은 정확도를 갖는 스켈레톤 데이터를 수집하였다. 또한, EMG 신호 데이터를 수집하고 전처리하는 과정을 통해 행동 분석을 위한 멀티 모달 데이터셋, EV-Action을 제시한다.

2023년 6월 17일
·
0개의 댓글
·
post-thumbnail

2022, End-to-End Audio-Visual Neural Speaker Diarization [2022, Interspeech]

MISP baseline, paper, githubmultimodal inputsuses audio features, lip regions of interest, and i-vector embeddingsI-vectors are the key point to solve

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

2023, WHU-Alibaba [MISP 2022]

Figure SYSTEM DESCRIPTION Visual front-end modified ResNet18-3D model for processing lip videos They make three changes to the standard Pytorch imp

2023년 5월 17일
·
0개의 댓글
·