# Multimodal

ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules (2023)

Unifying Vision, Text, and Layout for Universal Document Processing (CVPR 2023)

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking (ACM 2022)

[논문리뷰] Self-Supervised Multi-Modal Versatile Networks - 2020
In this, we seek to learn a multimodal versatile network, defined as a network that has the following four properties: (i) 세 가지 모달리티 중 어느 하나라도 입력으로 취할
Multimodal Transport 복합수송
하나의 계약안에 두개 이상의 교통 수단을 이용하여 물건을 수송하는 계약.운송업체가 국가에서 국가간 해상, 내수로, 항공, 철도 또는 도로운송 중 2개이상의 방법을 복합 사용하여 화물을 이송 시키는 운송.100Km 이상일 경우 기차나 해안수송 또는 내륙선박 수송을 이용하

프롬프트 엔지니어링 결과는 어떻게 평가할까? Text-to-Image의 사례로 알아보기
어떻게 프롬프트 결과물을 평가하지? 이 의문을 Text-to-Image 분야에서 발 빠르게 해결한 논문이 있습니다

2022, AV-HuBERT [ICLR]
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction, in Proc. ICLR 2022

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training - 논문 정리
지속적으로 neural script knowledge, 그리고 Visual Question-Answer 관련 논문을 읽어서, 이번에는 정말 specific한 domain인 medical domain에서의 Vision-Language multimodal 논문을 읽어보았다

MERLOT RESERVE: Neural Script Knowledge through Vision and Language and Sound - 논문 정리
MERLOT RESERVE는 MERLOT 이후에 등장한 neural script knowledge 모델이다. MERLOT은 그래도 이해를 하면서 읽었는데, 이번 논문을 이해하지 못하는 부분이 조금 많았다. 그래도 읽고 이해를 해보려고 노력해봤으니... 정리를 하려고 한

MERLOT: Multimodal Neural Script Knowledge Models - 논문 정리 (+BERT 정리)
이번 게시물에서는 유튜브 영상으로 label 없이 multimodal script knowledge를 학습하는 self-supervised model인 MERLOT의 논문을 정리하고자 한다. 논문 읽기 전 - BERT 정리 논문을 이해하기 위해 알아야하는 BERT를

[논문리뷰] Diffusion-Based Scene Graph to Image Generation with Masked Constrastive Pre-Training
Scene graph와 같이 graph-structured를 input으로 받은 이미지 생성은 이미지의 옵젝트와 옵젝트들의 관계로 그래프에 노드와 연결을 배치한다는 독특한 챌린지가 있다. 가장 많이 사용하는 방법은 scene layouts을 이용하는 것인데, scen

A Joint Sequence Fusion Model for Video Question Answering and Retrieval - 논문 정리
이번 게시물에서는 어떤 multimodal sequence가 주어졌을 때 의미론적 유사성을 측정할 수 있는 JSFusion이라는 접근법과 관련된 논문을 정리하고자 한다. Abstract 본 논문에서는 두 개의 multimodal sequence 데이터 사이의 의미론

TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering - 논문 정리
CMU MMML 강의 수강을 시작하면서 multimodal의 활용 분야들을 알게 되었는데, 이 논문은 여러 분야들 중 Visual Question Answering, 특히 영상에서 VQA를 수행할 때 고려해야하는 새로운 시각을 제안한다. 0. Abstract (초

Code Review : 1st Place Code for AI competition for predicting lymphadenopathy in breast cancer
Competitioni LinkData LinkImage Data + Tabular Data윗 사진과 같이 주어진 이미지 데이터에는 비슷한 조직이 1~4번 반복되어져 있다. 그래서 2등분선과 4등분선을 그어 background에 해당하는 pixel의 개수를 통해 하나의

Code Review : Baseline Code for AI competition for predicting lymphadenopathy in breast cancer
Training the Model with datas of various modality that is collected by 5 senses of human, which are 1) Vision, 2) Text, 3) Speech, 4) Touch, 5) Smell,
CMU MMML - Lecture 1.2 Datasets
1980 ~ 1990 : Audio-visual speech recognition1990 ~ 2000 : 1) Content-based video retrieval. A lot more videos were available on youtube at this time.

[MultiModal] CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment (ICLR 2023)
CLIP을 비디오-텍스트 검색 테스크에 활용하기 위한 최적의 방식을 제안하는 논문으로 텍스트는 데이터 품질을 올리고, 비디오는 주요 프레임에 어텐션을 잘 적용하는 문제로 풀어냄