近年来,大型视觉语言模型(Large Vision Language Models, LVLMs)在视觉问答(Visual Question Answering, VQA)任务中的表现因多模态检索增强生成(Retrieval-Augmented Generation, RAG)方法而显著提升。然而,现有方法仍面临诸多挑战,例如包含推理示例的知识稀缺,以及检索到的知识响应不稳定等问题。为了解决这些问题,本文提出了一种多模态 RAG 框架,称为 RCTS,该框架通过构建富含推理上下文的知识库以及引入树搜索重排序方法来增强 LVLM 的推理能力。 具体而言,我们引入了一种自洽的评估机制,用于将内在的推理模式纳入知识库,从而丰富其内容。同时,我们提出了一种结合启发式奖励的蒙特卡洛树搜索算法(Monte Carlo Tree Search with Heuristic Rewards, MCTS-HR),用于优先选择与当前任务最相关的推理示例。这一机制确保了 LVLMs 能够利用高质量的上下文推理信息,生成更优且更一致的回答。

大量实验证明,我们提出的框架在多个 VQA 数据集上均取得了当前最优性能,显著优于上下文学习(In-Context Learning, ICL)和基础 RAG 方法(Vanilla-RAG)。这突显了我们所构建的知识库和重排序方法在提升 LVLM 表现方面的有效性。

成为VIP会员查看完整内容
4

相关内容

【ICML2025】通过多智能体反思强化大语言模型推理
【ACL2024】通过直接偏好优化的自训练提升链式思维推理
【ICML2024】理解视觉语言模型的检索增强任务自适应
专知会员服务
23+阅读 · 2024年5月8日
【CVPR2022】基于样例查询机制的在线动作检测
专知会员服务
10+阅读 · 2022年3月23日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
18+阅读 · 2021年3月16日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
相关论文
A Survey of Large Language Models
Arxiv
464+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
39+阅读 · 2021年11月11日
Arxiv
18+阅读 · 2021年3月16日
Identity-aware Graph Neural Networks
Arxiv
14+阅读 · 2021年1月25日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员