[Multimodal RAG] RagVL (RagLLaVA) (2024)

leehyuna·2024년 11월 29일
0

Multimodal RAG

목록 보기
3/3

MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training (2024 arXiv preprint)

  • Multimodal RAG를 도입하면 MLLM의 static training data 의존성 문제를 해결할 수 있지만, multi-granularity noisy correspondence(MNC) problem이 있음
  • RagVL은 위 문제를 knowledge-enhanced reranking과 noise-injected training을 통해 해결하는 새로운 프레임워크
  • Knowledge-enhanced Reranking
  • Instruction Tuning
    • 심플하지만 효과적인 instruction template으로 MLLM을 instruction-tune
    • ranking ability, 상위 k개의 검색된 이미지를 필터링하는 reranker 역할을 함
    • Noise-injected Training
      • generator의 robustness 향상을 위해 학습동안 data와 token 단위에서 visual noise 주입
profile

0개의 댓글