多模态推理的最新进展在很大程度上得益于文本链式思维(Chain-of-Thought,CoT)范式的推动,该范式主张模型在语言中进行推理。然而,这种以文本为中心的方法将视觉仅视为静态的初始上下文,导致了丰富感知数据与离散符号思维之间的根本语义鸿沟。人类认知往往超越语言,将视觉作为一种动态的心理画板加以利用。而类似的演化趋势也正在人工智能领域显现,标志着一个范式的根本性转变:从“思考图像”的模型迈向真正能够“借图思考”的模型。 这一新兴范式的核心特征在于模型将视觉信息作为思维过程中间步骤加以利用,从而将视觉从被动输入转变为可操控的动态认知工作空间。在本综述中,我们沿着智能不断增强认知自主性的演进路径,对该趋势进行了梳理,这一演进历程可分为三个关键阶段:从外部工具探索、程序化操作,到内在想象。 为了系统化这一快速发展的研究领域,我们的综述提出了四项主要贡献:(1)确立“借图思考”(Thinking with Images)范式的基本原理及其三阶段框架;(2)全面回顾构成该发展路线图中各阶段核心方法的代表性工作;(3)分析评估基准和关键应用的现状与变革趋势;(4)指出当前面临的主要挑战,并展望未来值得关注的发展方向。通过这一结构化的综述,我们旨在为构建更强大、更贴近人类思维方式的多模态人工智能提供清晰的研究路线图。

1 引言

大型多模态模型(Large Multimodal Models, LMMs)近年来标志着人工智能领域的一个关键转折点,展现出在理解和生成多模态内容方面的显著成果 [Team et al., 2023; Liu et al., 2024a; Wang et al., 2024a; Chen et al., 2025a]。这一进展从根本上重塑了 AI 跨越视觉感知与语言抽象之间认知鸿沟的能力。而促成这一“第一波”变革的核心推动力之一,便是语言中心化的推理机制,尤其是链式思维(Chain-of-Thought, CoT)范式的引入 [Wei et al., 2022; Kojima et al., 2022]。通过将复杂问题分解为一系列文本化的推理步骤,CoT 大幅提升了 LMM 在多种多模态任务上的表现,包括视觉问答 [Zhang et al., 2023a; He et al., 2025a; Shen et al., 2025]、视觉支撑的数学问题求解 [Lu et al., 2023] 和复杂叙事生成 [Wu et al., 2024a] 等。 在这一既定范式中,也即我们称之为“思考图像”(Thinking about Images)的方式中,视觉模态主要被用作静态的初始上下文:LMM 首先“看到”一张图像,将其编码为一组固定的特征向量,然后仅在语言域中开展推理。图像是前提,但语言是唯一的思维媒介。尽管该文本中心化方法已颇具成效,但它暴露了一个根本性局限:即视觉世界丰富、连续且常常模糊不清的本质,与语言的离散、符号结构之间存在语义鸿沟 [Li et al., 2022]。图像在初始阶段的一次性编码将其扁平化为静态表示,形成了一个关键的信息瓶颈。因此,当任务需要更深层、递归式视觉参与时,如复杂物理推理 [Balazadeh et al., 2024]、精确空间操作 [Gupta and Kembhavi, 2023],或交互环境中的长程规划 [Pahuja et al., 2025; Wang et al., 2025a],模型往往难以胜任。 如今,一场新的多模态推理变革正悄然兴起。模型正在从仅用文本“思考图像”,转向真正能够“借图思考”的新范式。这标志着视觉在认知过程中的角色发生根本转变:从被动、固定的输入,变为动态、可操控的认知工作空间。正如人类使用草图本进行思维一样,模型如今也开始被赋予能力,能够主动查询、修改,甚至生成新的视觉信息,作为推理过程中的中间步骤。这种“视觉链式思维”(visual chain of thought)的能力,不再是对文本 CoT 的简单扩展,而是一种朝向更整体、更类人认知形态的革命性飞跃 [Larkin and Simon, 1987]。我们认为,这一新兴范式——“借图思考”(Thinking with Images),代表了多模态 AI 的下一前沿。其核心原则在于:将视觉表征作为可操控、可验证的思维形式,使模型能够在认知过程中主动观察、操纵并以视觉信息为中介进行推理。 本综述是首个对这一新兴且快速发展的研究方向进行全面、系统梳理的工作。为了组织这一不断演化的研究图景,我们提出了一个概念性框架,描绘该范式在认知自主性不断增强过程中的三阶段演进路径。这三个阶段反映了模型实现视觉推理目标的不同机制(即“如何做”)以及推理动机(即“为何做”):从作为“指挥者”调度外部视觉工具、演进为“视觉程序员”以代码实现定制化视觉操作,最终成长为能够进行内在想象与模拟的“视觉思考者”。第二节将详细阐述这一三阶段演进路径。 随着各阶段方法的不断涌现,一个关键问题也随之而来,而本综述正旨在解答这一问题: 大型多模态模型如何通过认知自主性不断增强的三个阶段,演进至“借图思考”的新范式?该范式又由哪些核心方法、评估策略、应用场景和挑战构成?

本综述围绕该问题进行系统组织,并遵循图 1 所示的分类结构。我们将在第 2 节建立该范式的基础,随后在第 3、4、5 节分别探讨三个阶段所涉及的具体方法。在第 6 节,我们回顾相关评估基准和实现框架,第 7 节探讨该范式的关键应用,第 8 节则总结面临的挑战并展望未来方向。通过清晰的分类体系与前瞻性视角,我们希望不仅总结已有知识,也为构建更强大、更直观、真正多模态的 AI 激发未来研究灵感。


1.1 本综述的定位

与已有综述的差异

早期的综述为理解 LMM 奠定了基础,但大多持有一个共同视角:视觉主要作为上下文输入,而语言仍是推理的主导载体。诸如 Yin et al. [2024]、Zhang et al. [2024c]、Wu et al. [2023a] 等面向通用 LMM 的综述,主要聚焦于架构、预训练语料和评估协议,对模型在图像编码后如何利用视觉信息的探讨则相对有限。Xie et al. [2024a] 将分析拓展至智能体场景,但仍以工具调用为中心,缺乏对内部视觉认知机制的关注。而在数学推理 [Yan et al., 2024]、幻觉检测 [Liu et al., 2024c]、评测基准 [Li et al., 2025d] 等任务专向综述中,虽涉及更具体任务细节,但仍延续了文本中心化的框架。近期已有部分工作开始讨论显式推理机制:如 Wang et al. [2025g] 回顾了多模态 CoT 提示设计,Li et al. [2025e] 探讨了“感知–推理–规划”流程;但即便如此,视觉模态仍然是被动的:模型通常只是对图像进行一次性描述或标注,随后继续在语言域中进行思考。 我们的立场

本综述聚焦于范式的转变:从“思考图像”到“借图思考”。我们首次系统性地分类和整理了促成这一演进的机制,其中图像从一个静态前提转变为一个动态、可操作的认知空间。我们按照认知自主性的提升轨迹来组织综述内容,阐明模型如何从(1)调度工具进行探索、到(2)以编程方式主动生成视觉分析,最终迈向(3)在封闭认知环中进行内在视觉想象。我们相信,这一发展将从根本上重新定义推理步骤的结构、可验证证据的标准,以及如何衡量真正的视觉智能。

成为VIP会员查看完整内容
0

相关内容

多模态思维链推理:全面综述
专知会员服务
54+阅读 · 3月23日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
【博士论文】推理的表示学习:跨多样结构的泛化
专知会员服务
27+阅读 · 2024年10月20日
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
29+阅读 · 2024年2月8日
专知会员服务
78+阅读 · 2021年7月23日
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
实体关系抽取方法研究综述
专知
12+阅读 · 2020年7月19日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2011年12月31日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
77+阅读 · 2023年3月26日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
10+阅读 · 2020年11月26日
VIP会员
相关VIP内容
多模态思维链推理:全面综述
专知会员服务
54+阅读 · 3月23日
多模态基础模型的机制可解释性综述
专知会员服务
36+阅读 · 2月28日
【博士论文】推理的表示学习:跨多样结构的泛化
专知会员服务
27+阅读 · 2024年10月20日
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
29+阅读 · 2024年2月8日
专知会员服务
78+阅读 · 2021年7月23日
相关资讯
数据受限条件下的多模态处理技术综述
专知
20+阅读 · 2022年7月16日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
实体关系抽取方法研究综述
专知
12+阅读 · 2020年7月19日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
深度学习时代的目标检测算法
炼数成金订阅号
39+阅读 · 2018年3月19日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2011年12月31日
相关论文
微信扫码咨询专知VIP会员