【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大 - 专知VIP

会员服务 ·

3

ICML 2025 · 大型视觉语言模型 ·

【ICML2025】使用树搜索重新排序推理上下文，使大型视觉语言模型更强大

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，大型视觉语言模型（Large Vision Language Models, LVLMs）在视觉问答（Visual Question Answering, VQA）任务中的表现因多模态检索增强生成（Retrieval-Augmented Generation, RAG）方法而显著提升。然而，现有方法仍面临诸多挑战，例如包含推理示例的知识稀缺，以及检索到的知识响应不稳定等问题。为了解决这些问题，本文提出了一种多模态 RAG 框架，称为 RCTS，该框架通过构建富含推理上下文的知识库以及引入树搜索重排序方法来增强 LVLM 的推理能力。具体而言，我们引入了一种自洽的评估机制，用于将内在的推理模式纳入知识库，从而丰富其内容。同时，我们提出了一种结合启发式奖励的蒙特卡洛树搜索算法（Monte Carlo Tree Search with Heuristic Rewards, MCTS-HR），用于优先选择与当前任务最相关的推理示例。这一机制确保了 LVLMs 能够利用高质量的上下文推理信息，生成更优且更一致的回答。

大量实验证明，我们提出的框架在多个 VQA 数据集上均取得了当前最优性能，显著优于上下文学习（In-Context Learning, ICL）和基础 RAG 方法（Vanilla-RAG）。这突显了我们所构建的知识库和重排序方法在提升 LVLM 表现方面的有效性。

成为VIP会员查看完整内容

4

相关内容

ICML 2025

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

2+阅读 · 6月11日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

专知会员服务

12+阅读 · 4月12日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

专知会员服务

17+阅读 · 4月7日

【ICLR2025】用于大型语言模型对齐的差分隐私引导

【ICLR2025】用于大型语言模型对齐的差分隐私引导

专知会员服务

9+阅读 · 1月31日

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

专知会员服务

25+阅读 · 2024年12月12日

【牛津大学博士论文】迈向具有类人自然语言理解的语言模型

【牛津大学博士论文】迈向具有类人自然语言理解的语言模型

专知会员服务

28+阅读 · 2024年10月28日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

【ICML2024】理解视觉语言模型的检索增强任务自适应

【ICML2024】理解视觉语言模型的检索增强任务自适应

专知会员服务

23+阅读 · 2024年5月8日

【CVPR2022】基于样例查询机制的在线动作检测

【CVPR2022】基于样例查询机制的在线动作检测

专知会员服务

10+阅读 · 2022年3月23日

【IJCAI2020】通过双向对抗训练生成中间域样本提升半监督域自适应效果

【IJCAI2020】通过双向对抗训练生成中间域样本提升半监督域自适应效果

专知会员服务

35+阅读 · 2020年9月17日

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知

11+阅读 · 2021年2月19日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

AI研习社

13+阅读 · 2019年1月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

211+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

464+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

24+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Identity-aware Graph Neural Networks

Identity-aware Graph Neural Networks

Arxiv

14+阅读 · 2021年1月25日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

VIP会员

相关主题

大型视觉语言模型

相关VIP内容

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

2+阅读 · 6月11日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现领域泛化语义分割

专知会员服务

12+阅读 · 4月12日

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

【CVPR2025】Mamba 作为桥梁：连接视觉基础模型与视觉语言模型以实现跨领域的语义分割

专知会员服务

17+阅读 · 4月7日

【ICLR2025】用于大型语言模型对齐的差分隐私引导

【ICLR2025】用于大型语言模型对齐的差分隐私引导

专知会员服务

9+阅读 · 1月31日

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

【AAAI2025】利用大型语言模型引导异构图表示学习：一种通用方法

专知会员服务

25+阅读 · 2024年12月12日

【牛津大学博士论文】迈向具有类人自然语言理解的语言模型

【牛津大学博士论文】迈向具有类人自然语言理解的语言模型

专知会员服务

28+阅读 · 2024年10月28日

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

【ACL2024】通过直接偏好优化的自训练提升链式思维推理

专知会员服务

31+阅读 · 2024年8月3日

【ICML2024】理解视觉语言模型的检索增强任务自适应

【ICML2024】理解视觉语言模型的检索增强任务自适应

专知会员服务

23+阅读 · 2024年5月8日

【CVPR2022】基于样例查询机制的在线动作检测

【CVPR2022】基于样例查询机制的在线动作检测

专知会员服务

10+阅读 · 2022年3月23日

【IJCAI2020】通过双向对抗训练生成中间域样本提升半监督域自适应效果

【IJCAI2020】通过双向对抗训练生成中间域样本提升半监督域自适应效果

专知会员服务

35+阅读 · 2020年9月17日

热门VIP内容

开通专知VIP会员享更多权益服务

【CVPR2025教程】高效的文本到图像/视频建模

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

【ICML2025】通过多智能体反思强化大语言模型推理

Agent有望定义万亿劳动力市场

相关资讯

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

图上如何建模因果性？PSU等最新《图反事实学习》综述，50页pdf全面综述图公平性、可解释性等方法

专知

52+阅读 · 2023年4月13日

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

[AAAI 2021]图到图：面向精确可解释的联机手写数学公式识别

专知

11+阅读 · 2021年2月19日

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

【AAAI2021】面向真实世界的鲁棒视觉信息提取:新的数据集和新颖的解决方案

专知

12+阅读 · 2021年2月18日

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

【ACL2020】多模态信息抽取，365页ppt全面阐述各种形式文本信息抽取

专知

31+阅读 · 2020年7月6日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

ICCV 2019 开源论文 | 适用于视频分割的全新Attention机制

PaperWeekly

10+阅读 · 2019年11月9日

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

【Github】nlp-tutorial：TensorFlow 和 PyTorch 实现各种NLP模型

AINLP

14+阅读 · 2019年9月4日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

Github项目推荐 | Chatito - 使用简单的DSL为AI聊天机器人、NLP任务、命名实体识别或文本分类模型生成数据集

AI研习社

13+阅读 · 2019年1月21日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关基金

直接优化半周长线长的VLSI两阶段迭代布局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

状态空间搜索的anytime模式及其高效算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

4+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

关于面板(纵向）数据的动态统计分析

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

相关论文

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

211+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

464+阅读 · 2023年3月31日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

24+阅读 · 2023年1月13日

Geometric multimodal representation learning

Arxiv

68+阅读 · 2022年9月7日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Identity-aware Graph Neural Networks

Identity-aware Graph Neural Networks

Arxiv

14+阅读 · 2021年1月25日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Robust event-stream pattern tracking based on correlative filter

Arxiv

10+阅读 · 2018年3月17日

微信扫码咨询专知VIP会员