【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》 - 专知VIP

会员服务 ·

12

ICML 2025 · 视觉语言模型 · 模型融合 ·

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

视觉语言模型（VLMs）将视觉感知能力与大型语言模型（LLMs）所具备的通用能力（如推理）结合在一起。然而，这两种能力如何协同发挥作用，其内部机制尚未被深入理解。在本研究中，我们尝试通过模型融合的方式，将感知与推理进行组合，具体方法是连接不同模型的参数。与以往主要集中于同类模型融合的研究不同，我们提出了一种跨模态的模型融合方法，使得LLM的推理能力能够无缝引入到VLM中。通过大量实证实验，我们证明模型融合提供了一种无需重新训练即可将推理能力从LLM迁移至VLM的有效路径。此外，我们还利用融合后的模型来研究感知与推理的内部机制以及模型融合对其影响的方式。我们的研究发现：感知能力主要编码于模型的前层结构，而推理能力则更多依赖于中后层结构。在融合之后，模型的所有层都开始对推理任务产生贡献，而感知能力的层级分布则基本保持不变。这些发现表明，模型融合不仅是多模态集成的有效手段，同时也为理解感知与推理的协同机制提供了新的视角。我们的代码已公开，地址如下： 👉 https://github.com/shiqichen17/VLM-Merging

成为VIP会员查看完整内容

17

相关内容

ICML 2025

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 3月28日

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

专知会员服务

21+阅读 · 2月25日

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

专知会员服务

53+阅读 · 2024年12月24日

《多模态大语言模型视觉提示》综述

《多模态大语言模型视觉提示》综述

专知会员服务

34+阅读 · 2024年9月25日

【MIT博士论文】非参数高维模型：稀疏性、效率、可解释性，296页pdf

【MIT博士论文】非参数高维模型：稀疏性、效率、可解释性，296页pdf

专知会员服务

31+阅读 · 2024年8月24日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

54+阅读 · 2024年8月3日

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

专知会员服务

20+阅读 · 2024年3月13日

【干货书】深度学习的数学导论:方法、实现和理论，601页pdf

【干货书】深度学习的数学导论:方法、实现和理论，601页pdf

专知会员服务

118+阅读 · 2024年1月23日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

【2022新书】Python数学逻辑，285页pdf

【2022新书】Python数学逻辑，285页pdf

专知

13+阅读 · 2022年11月24日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

49+阅读 · 2022年6月2日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

52+阅读 · 2022年4月25日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

10+阅读 · 2021年3月17日

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

专知

19+阅读 · 2020年12月17日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

34+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

VIP会员

相关主题

视觉语言模型

相关VIP内容

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 3月28日

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

《推荐可行策略：将分析框架与决策启发式方法相结合的语义方法》

专知会员服务

21+阅读 · 2月25日

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

《探索用于场景生成的大型语言模型：支持 C2SIM 自主系统本体扩展开发》

专知会员服务

53+阅读 · 2024年12月24日

《多模态大语言模型视觉提示》综述

《多模态大语言模型视觉提示》综述

专知会员服务

34+阅读 · 2024年9月25日

【MIT博士论文】非参数高维模型：稀疏性、效率、可解释性，296页pdf

【MIT博士论文】非参数高维模型：稀疏性、效率、可解释性，296页pdf

专知会员服务

31+阅读 · 2024年8月24日

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

《注意力驱动的多智能体强化学习：利用专业知识强化任务决策》

专知会员服务

54+阅读 · 2024年8月3日

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

【CVPR2024】超越文本：在视觉信号理解中冻结的大型语言模型

专知会员服务

20+阅读 · 2024年3月13日

【干货书】深度学习的数学导论:方法、实现和理论，601页pdf

【干货书】深度学习的数学导论:方法、实现和理论，601页pdf

专知会员服务

118+阅读 · 2024年1月23日

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

【ICLR 2022】《多Agent控制的遗憾最小化方法》谷歌、普林斯顿大学

专知会员服务

19+阅读 · 2022年6月16日

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

【ACL2020-密歇根州立大学】语言和视觉推理的跨模态关联

专知会员服务

57+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

NeurIPS 2025 | 自动化所新作速览（一）

大型语言模型（LLM）赋能的知识图谱构建：综述

NeurIPS 2025 | 自动化所新作速览（二）

领域特定文本分类中的预训练语言模型新进展：系统综述

相关资讯

【2022新书】Python数学逻辑，285页pdf

【2022新书】Python数学逻辑，285页pdf

专知

13+阅读 · 2022年11月24日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

49+阅读 · 2022年6月2日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

52+阅读 · 2022年4月25日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

10+阅读 · 2021年3月17日

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

【唐建博士】知识图谱上的神经和符号逻辑推理，99页ppt

专知

19+阅读 · 2020年12月17日

【AAAI2021】自监督对应学习的对比转换

【AAAI2021】自监督对应学习的对比转换

专知

12+阅读 · 2020年12月11日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

34+阅读 · 2015年12月31日

正则双极值模糊推理的理论与方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于对合否定的SBL公理化扩张系统的程度化推理及逻辑控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

79+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

微信扫码咨询专知VIP会员