- paper : https://arxiv.org/pdf/2410.10594
- MiniCPM 개발한 openbmb가 개발
- huggingface : https://huggingface.co/openbmb/VisRAG-Ret
- github : https://github.com/OpenBMB/VisRAG/tree/master?tab=readme-ov-file
document에서 text를 얻어 parsing하는 것이 아니라, VLM을 활용하여 문서를 이미지로 해서 임베딩
text-based RAG 대비 VisRAG는 원본 문서 내의 정보 유지, 최대 활용 -> parsing 과정에서 발생하는 정보 손실 제거
진행한 실험에서 전통 RAG 대비 25-39%의 성능 향상
강력한 일반화 성능
- (1) VisRAG-Ret : Vision-based Retriever
document embedding model built on MiniCPM-V2.0 (VLM (SigLIP(vision encoder) + MiniCPM-2B(language model)))- (2) VisRAG-Gen : Generator
In the paper, We use MiniCPM-V 2.0, MiniCPM-V 2.6 and GPT-4o as the generators.
Actually, you can use any VLMs you like!