# Multimodal

53개의 포스트
post-thumbnail

CLIP의 Contrastive Loss 구현에 대한 고찰

CLIP의 Contrastive Loss 구현에 대한 고찰

3일 전
·
0개의 댓글
·
post-thumbnail

[논문리뷰] Self-Supervised Multi-Modal Versatile Networks - 2020

In this, we seek to learn a multimodal versatile network, defined as a network that has the following four properties: (i) 세 가지 모달리티 중 어느 하나라도 입력으로 취할

2023년 8월 21일
·
0개의 댓글
·

Multimodal Transport 복합수송

하나의 계약안에 두개 이상의 교통 수단을 이용하여 물건을 수송하는 계약.운송업체가 국가에서 국가간 해상, 내수로, 항공, 철도 또는 도로운송 중 2개이상의 방법을 복합 사용하여 화물을 이송 시키는 운송.100Km 이상일 경우 기차나 해안수송 또는 내륙선박 수송을 이용하

2023년 7월 22일
·
1개의 댓글
·
post-thumbnail

프롬프트 엔지니어링 결과는 어떻게 평가할까? Text-to-Image의 사례로 알아보기

어떻게 프롬프트 결과물을 평가하지? 이 의문을 Text-to-Image 분야에서 발 빠르게 해결한 논문이 있습니다

2023년 5월 26일
·
0개의 댓글
·
post-thumbnail

2022, AV-HuBERT [ICLR]

Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction, in Proc. ICLR 2022

2023년 5월 17일
·
0개의 댓글
·
post-thumbnail

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training - 논문 정리

지속적으로 neural script knowledge, 그리고 Visual Question-Answer 관련 논문을 읽어서, 이번에는 정말 specific한 domain인 medical domain에서의 Vision-Language multimodal 논문을 읽어보았다

2023년 5월 16일
·
0개의 댓글
·
post-thumbnail

MERLOT RESERVE: Neural Script Knowledge through Vision and Language and Sound - 논문 정리

MERLOT RESERVE는 MERLOT 이후에 등장한 neural script knowledge 모델이다. MERLOT은 그래도 이해를 하면서 읽었는데, 이번 논문을 이해하지 못하는 부분이 조금 많았다. 그래도 읽고 이해를 해보려고 노력해봤으니... 정리를 하려고 한

2023년 5월 9일
·
0개의 댓글
·
post-thumbnail

MERLOT: Multimodal Neural Script Knowledge Models - 논문 정리 (+BERT 정리)

이번 게시물에서는 유튜브 영상으로 label 없이 multimodal script knowledge를 학습하는 self-supervised model인 MERLOT의 논문을 정리하고자 한다. 논문 읽기 전 - BERT 정리 논문을 이해하기 위해 알아야하는 BERT를

2023년 5월 8일
·
0개의 댓글
·
post-thumbnail

[논문리뷰] Diffusion-Based Scene Graph to Image Generation with Masked Constrastive Pre-Training

Scene graph와 같이 graph-structured를 input으로 받은 이미지 생성은 이미지의 옵젝트와 옵젝트들의 관계로 그래프에 노드와 연결을 배치한다는 독특한 챌린지가 있다. 가장 많이 사용하는 방법은 scene layouts을 이용하는 것인데, scen

2023년 5월 7일
·
0개의 댓글
·
post-thumbnail

A Joint Sequence Fusion Model for Video Question Answering and Retrieval - 논문 정리

이번 게시물에서는 어떤 multimodal sequence가 주어졌을 때 의미론적 유사성을 측정할 수 있는 JSFusion이라는 접근법과 관련된 논문을 정리하고자 한다. Abstract 본 논문에서는 두 개의 multimodal sequence 데이터 사이의 의미론

2023년 5월 5일
·
0개의 댓글
·
post-thumbnail

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering - 논문 정리

CMU MMML 강의 수강을 시작하면서 multimodal의 활용 분야들을 알게 되었는데, 이 논문은 여러 분야들 중 Visual Question Answering, 특히 영상에서 VQA를 수행할 때 고려해야하는 새로운 시각을 제안한다. 0. Abstract (초

2023년 5월 4일
·
0개의 댓글
·
post-thumbnail

Code Review : 1st Place Code for AI competition for predicting lymphadenopathy in breast cancer

Competitioni LinkData LinkImage Data + Tabular Data윗 사진과 같이 주어진 이미지 데이터에는 비슷한 조직이 1~4번 반복되어져 있다. 그래서 2등분선과 4등분선을 그어 background에 해당하는 pixel의 개수를 통해 하나의

2023년 4월 29일
·
0개의 댓글
·
post-thumbnail

Code Review : Baseline Code for AI competition for predicting lymphadenopathy in breast cancer

Training the Model with datas of various modality that is collected by 5 senses of human, which are 1) Vision, 2) Text, 3) Speech, 4) Touch, 5) Smell,

2023년 4월 29일
·
0개의 댓글
·

CMU MMML - Lecture 1.2 Datasets

1980 ~ 1990 : Audio-visual speech recognition1990 ~ 2000 : 1) Content-based video retrieval. A lot more videos were available on youtube at this time.

2023년 4월 22일
·
2개의 댓글
·
post-thumbnail

[MultiModal] CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment (ICLR 2023)

CLIP을 비디오-텍스트 검색 테스크에 활용하기 위한 최적의 방식을 제안하는 논문으로 텍스트는 데이터 품질을 올리고, 비디오는 주요 프레임에 어텐션을 잘 적용하는 문제로 풀어냄

2023년 4월 21일
·
0개의 댓글
·