[Multimodal RAG] RagVL (RagLLaVA) (2024)
MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training (2024 arXiv preprint)
- Multimodal RAG를 도입하면 MLLM의 static training data 의존성 문제를 해결할 수 있지만, multi-granularity noisy correspondence(MNC) problem이 있음
- RagVL은 위 문제를 knowledge-enhanced reranking과 noise-injected training을 통해 해결하는 새로운 프레임워크
- Knowledge-enhanced Reranking
- Instruction Tuning
- 심플하지만 효과적인 instruction template으로 MLLM을 instruction-tune
- ranking ability, 상위 k개의 검색된 이미지를 필터링하는 reranker 역할을 함
- Noise-injected Training
- generator의 robustness 향상을 위해 학습동안 data와 token 단위에서 visual noise 주입