Multi-modal Retrieval-Augmented Generation (RAG) has become a critical method for empowering LLMs by leveraging candidate visual documents. However, current methods consider the entire document as the basic retrieval unit, introducing substantial irrelevant visual content in two ways: 1) Relevant documents often contain large regions unrelated to the query, diluting the focus on salient information; 2) Retrieving multiple documents to increase recall further introduces redundant and irrelevant documents. These redundant contexts distract the model's attention and further degrade the performance. To address this challenge, we propose RegionRAG, a novel framework that shifts the retrieval paradigm from the document level to the region level. During training, we design a hybrid supervision strategy from both labeled data and unlabeled data to pinpoint relevant patches. During inference, we propose a dynamic pipeline that intelligently groups salient patches into complete semantic regions. By delegating the task of identifying relevant regions to the retriever, RegionRAG enables the generator to focus solely on concise, query-relevant visual content, improving both efficiency and accuracy. Experiments on six benchmarks demonstrate that RegionRAG achieves state-of-the-art performance. It improves retrieval accuracy by 10.02% in R@1 on average, and boosts question answering accuracy by 3.56% while using only 71.42% visual tokens compared with prior methods.


翻译:多模态检索增强生成已成为通过利用候选视觉文档赋能大型语言模型的关键方法。然而,当前方法将整个文档视为基本检索单元,从两方面引入了大量无关视觉内容:1)相关文档常包含与查询无关的大片区域,冲淡了对显著信息的关注;2)为提升召回率而检索多个文档会进一步引入冗余且无关的文档。这些冗余上下文会分散模型的注意力,进而降低性能。为应对这一挑战,我们提出RegionRAG——一种将检索范式从文档级迁移至区域级的新型框架。在训练阶段,我们设计了来自标注数据与未标注数据的混合监督策略,以精确定位相关图像块。在推理阶段,我们提出动态处理流程,将显著图像块智能聚合为完整语义区域。通过将识别相关区域的任务委托给检索器,RegionRAG使生成器能专注于简洁且与查询相关的视觉内容,从而提升效率与准确性。在六个基准测试上的实验表明,RegionRAG实现了最先进的性能:其检索准确率在R@1指标上平均提升10.02%,问答准确率提高3.56%,且视觉令牌使用量仅为先前方法的71.42%。

0
下载
关闭预览

相关内容

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化
专知会员服务
22+阅读 · 2024年10月23日
Python图像处理,366页pdf,Image Operators Image Processing in Python
深度学习图像检索(CBIR): 十年之大综述
专知
66+阅读 · 2020年12月5日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员