Foundations & Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

ckck12·2024년 2월 26일
0

논문 리뷰

목록 보기
2/2

2023 02 20 by. Paul Pu Liang

서론

1. 멀티모달 러닝은 다양한 양식(데이터)을 통합하여 이해, 추론, 학습을 가능케하는 Computer Agent를 설계하는 것

2. 멀티모달 연구가 광범위하게 진전되어 공통된 주제를 파악하기 어려웠음

3. 모달의 이질성, 모달의 연결, 모달의 상호작용 이 3가지 핵심 원칙을 정의하고 representation, alignment, reasoning, generation, transference, quantification 이 6가지 핵심 기술 과제를 분류법을 제안함.

정보(ex 비디오)는 다양한 품질, 구조, 모달(ex image, audio)로 이루어질 수 있고 서로 이질적이다. 그러나 양식이 서로 연관되어 있으며, 서로 상호작용하여 작업 추론에 사용될 때 새로운 정보를 생성할 수 있다.

Introduction

Representation

서로 다른 2개 이상의 모달간 이질성과 상호 연결을 반영하기 위해 데이터를 어떻게 표현하고 요약하는지를 연구

representation fusion: 두개 이상의 모달리티에서 정보를 통합하여 모달간 상호작용을 캡처함

representation coordination: 표현을 유지하면서 멀티모달 문맥화를 개선하는 것을 목표로 크로스 모달 정보를 교환

representation fission: 데이터 클러스터링이나 인수 분해와 같은 내부 구조에 대한 지식을 반영하는 더 큰 집합의 분리된 표현을 생성

Alignment

요소들의 연결과 상호작용을 식별하는 것을 연구

Discrete alignment: identifying connections between discrete elements across modalities

Continuous alignment: modeling alignment between continuous modality signals with ambiguous segmentation

Contextualized representations: learning better representations by capturing cross-modal interactions between elements

Reasoning

멀티모달 증거로 부터 추론을 통해 지식을 구성하는 것을 연구

1. 추론이 이루어지는 구조 모델링

2. 추론 과정의 중간 개념

3. 보다 추상적인 개념의 추론 패러다임 이해

4. 구조, 개념 및 추론 연구에서 대규모 외부 지식 활용이 포함

Generation

모달간 상호작용을 분석하여 통해 원시 모달을 생성하는 프로세스를 학습하는 것을 연구

Summarization: 멀티모달 데이터를 요약하여 가장 중요한 부분을 강조하는 기능

Translation: 한 모달에서 다른 모달로 translate하고 모달간 연결에 일관성 유지

Creation: 여러 모달을 동시에 생성하여 모달리티내 또는 모달리티 간 일관성을 유지하면서 컨텐츠 생성

Transference

모달들과 모달들의 표현 사이의 지식을 전달하는 것을 연구

Cross-modal transfer: 기본 모달과 관련된 태스크에 모델을 적용하는 것

Co-learning: 두 모달간 표현을 공유하여 보조 모달에서 기본 모달로 정보를 전송

Model induction: 단일모달 모델을 분리하여 유지하되 모델간 정보를 전송하는 것

Quantification

멀티모달 학습 과정을 이해하기 위한 연구

Foundation Principles in Multimodal Research

Principle 1: Modalities are Heterogeneous

이질성의 원칙: 다양한 모달에서 나타나는 정보가 서로 다른 특성, 구조, 표현을 보인다.

내용설명
요소 표현각 모달리티는 기본 데이터 단위(요소)로 구성되며, 이는 더 이상 분해할 수 없는(또는 분해하지 않기로 선택한) 단위입니다. 예: 문자로 된 텍스트, 비디오의 프레임, 그래프의 노드와 엣지.
분포모달리티 내 요소의 빈도와 가능성을 말하며, 각 요소는 특유의 분포를 따릅니다. 예: 언어 코퍼스에서 단어는 집프의 법칙을 따릅니다.
구조개별 요소가 전체 모달리티를 형성하기 위해 구성되는 방식에서 자연 데이터는 구조를 보여줍니다. 예: 이미지는 공간적 구조, 언어는 계층적 구조, 신호는 시간적 구조를 보임.
정보각 모달리티에 존재하는 총 정보 내용을 측정합니다. 정보 이론적 지표로 정보의 이질성을 측정할 수 있습니다.
노이즈자연 발생 데이터와 데이터 기록 과정에서 여러 단계에서 노이즈가 도입될 수 있습니다. 노이즈 이질성은 모달리티 간의 노이즈 분포와 신호 대 노이즈 비율의 차이를 측정합니다.
관련성각 모달리티는 특정 작업과 맥락에 대해 다른 관련성을 보여줍니다. 작업 관련성은 모달리티가 추론에 어떻게 사용될 수 있는지, 맥락 관련성은 모달리티가 다른 모달리티와 어떻게 맥락화되는지 설명합니다.

Principle 2: Modalities are Connected

모달은 이질적이지만 상호 보완적인 정보 공유로 인해 연관된 경우가 많다.

principle 3: Modalities Interact

모달 상호작용은 어떻게 모달 요소가 함께 통합될 때 어떻게 새로운 정보를 생성하는지 연구하는 것

profile
천천히하자

0개의 댓글