[Multimodal RAG] RagVL (RagLLaVA) (2024)

leehyuna·2024년 11월 29일

Multimodal RAG

목록 보기

3/3

paper : https://arxiv.org/abs/2407.21439

github : https://github.com/IDEA-FinAI/RagVL

Multimodal RAG를 도입하면 MLLM의 static training data 의존성 문제를 해결할 수 있지만, multi-granularity noisy correspondence(MNC) problem이 있음
RagVL은 위 문제를 knowledge-enhanced reranking과 noise-injected training을 통해 해결하는 새로운 프레임워크
Knowledge-enhanced Reranking
Instruction Tuning
- 심플하지만 효과적인 instruction template으로 MLLM을 instruction-tune
- ranking ability, 상위 k개의 검색된 이미지를 필터링하는 reranker 역할을 함
- Noise-injected Training
  - generator의 robustness 향상을 위해 학습동안 data와 token 단위에서 visual noise 주입