组合式视觉推理 已成为多模态人工智能的关键前沿研究方向,其目标是赋予机器类人的能力:能够分解视觉场景、落实中间概念,并执行多步逻辑推理。尽管早期综述主要聚焦于单一的视觉-语言模型或一般性的多模态推理,但针对快速扩展的组合式视觉推理文献,目前仍缺乏专门的系统性总结。本文填补了这一空白,全面回顾了 2023 至 2025 年间 260 余篇来自顶级会议(CVPR、ICCV、NeurIPS、ICML、ACL 等)的论文。 我们首先形式化核心定义,并说明组合式方法在 认知对齐、语义保真性、鲁棒性、可解释性和数据效率 方面的优势。接着,我们梳理了一个五阶段范式转变:从基于提示增强的语言中心管道,到工具增强的 LLMs、工具增强的 VLMs,再到新近兴起的 链式思维(Chain-of-Thought)推理 与 统一的智能体式 VLMs,并重点分析它们的架构设计、优势与局限。 随后,我们整理了 60 余个用于组合式视觉推理的基准与评测指标,这些基准从 概念落地准确性、推理链忠实性、高分辨率感知 等多个维度对模型进行考察。在此基础上,我们提炼出关键见解,并指出尚待解决的开放性挑战,例如:基于 LLM 的推理局限、幻觉问题、对演绎推理的偏向、可扩展监督、工具集成以及基准局限性。最后,我们展望了未来研究方向,包括 世界模型的融合、人机协作推理以及更丰富的评测协议。 通过提供一个统一的分类体系、历史脉络图谱与批判性展望,本文旨在成为该领域的基础性参考,并激发下一代组合式视觉推理研究。
人类具备一种非凡的能力,可以解释高维、未压缩的视觉输入,并抽象出其潜在结构,从而能够高效地将底层概念操作为符号化表征 [1, 2]。因此,人类能够轻而易举地在凌乱的房间中找到目标物体,判断一个杯子是否能放进抽屉,或预测一堆物体可能倒下的方向。这种认知能力被称为 视觉推理(visual reasoning),被广泛认为是人类智能的集中体现,构成了 概念形成、世界理解与环境交互 的基础 [2–5]。 在追求类人智能的过程中,越来越多的研究试图在机器中复现视觉推理能力 [1, 6–8]。早期方法,尤其是在大语言模型(LLMs)的推动下,催生了 单体(monolithic)黑箱架构,它们直接将视觉和文本输入映射为答案 [9–13]。这类系统在通用多模态理解中取得了令人印象深刻的成果 [14–16],并逐渐被应用于现实场景。例如,在机器人学中,视觉推理通过评估可供性和空间关系,实现无碰撞的物体操作;在医学影像中,它帮助从复杂扫描中检测解剖结构或异常;在自动驾驶或无人机中,它支持动态场景理解,例如预测行人意图或在复杂环境中导航 [9, 17–22]。 然而,尽管单体方法在通用多模态理解上表现出色,但在面对人类视觉推理固有的组合性和多步特征时,仍存在显著挑战 [13, 23–28]。具体而言,我们识别出以下关键局限: * 挑战 1:严重依赖数据集偏差。 单体模型往往并未进行扎实的推理,而是利用虚假的相关性与语言先验生成看似合理但错误的答案 [23, 24],从而削弱了它们在复杂或新颖场景中的泛化能力。 * 挑战 2:随着推理复杂性增加,性能收益递减。 简单地扩大数据和算力,并不能在任务需要多跳推理、空间理解或精确落地(grounding)时带来成比例的提升 [29–33]。 * 挑战 3:不符合类人的组合推理方式。 人类将视觉场景解释为由对象、属性和关系构成的结构化组合 [5, 34, 35],并能通过重组已知视觉元素和概念灵活地产生新推理 [4, 36–39]。相比之下,单体模型倾向于整体性地处理输入,缺乏显式分解与关系推理的机制。
这些局限凸显了开发 模块化、可解释、组合对齐 的视觉推理方法的必要性。受认知洞见和单体模型局限的共同驱动,研究者们开始探索一种新范式:组合式视觉推理(Compositional Visual Reasoning, CVR)。该范式显式引入由视觉感知引导的结构化推理步骤。其核心——也是本文综述的重点——在于发展能够构建显式场景表征,并通过逐步推理完成任务的方法。这类方法通过将复杂任务分解为由感知驱动的推理步骤,使中间思维过程可见,而不是依赖于单体的端到端映射 [4, 29](如图 1 所示)。 自 2023 年以来,组合式视觉推理发展迅速,已成为视觉智能研究的核心范式。然而,其发展轨迹、方法论基础与未来方向仍缺乏系统性审视。现有视觉推理综述主要聚焦于传统或单体方法 [40–42],因此未能覆盖组合式视觉推理这一迅速崛起的方向。同时,关于多模态大语言模型与推理的综述往往强调 通用推理 [31, 43]、神经符号框架 [44]、抽象模式识别 [45] 或 基于智能体的架构 [31, 46]。虽然这些研究与组合式视觉推理相关,涵盖了规划、感知或符号抽象等组成部分,但它们并未对组合式视觉推理作为一个独立且快速发展的范式进行深入或系统的分析。如表 1 所示,该领域仍然缺乏一份有针对性的、全面的综述。 这一空白尤为紧迫,因为组合式视觉推理正在快速积蓄势能,其发展日益依赖于 LLM 引导的推理机制、工具集成的工作流,以及具备多步推理能力的视觉-语言模型(VLMs)。这些技术正成为视觉问答(VQA)、视觉定位(visual grounding)等任务的基础,在这些任务中,推理不再被视为单步黑箱预测。 为此,本文综述系统性地回顾了强调在生成答案之前包含显式中间“思维”步骤的组合式视觉推理方法。我们特别关注 大模型增强方法在 2D 图像模态上的应用,不涉及基于视频或 3D 的推理框架。综述时间跨度为 2023 年 1 月至 2025 年 5 月,涵盖 NeurIPS、ICML、ICLR、ACL、EMNLP、AAAI、CVPR、ICCV、ECCV 等顶级会议的论文,以及高被引的 arXiv 预印本。 在本文中,我们聚焦于组合式视觉推理的最新演进,并围绕四个核心研究问题展开: 1. 为什么组合式视觉推理是必要的? 1. 组合式视觉推理的主要架构与范式是什么? 1. 现有的基准与评测指标有哪些? 1. 当前的局限与瓶颈是什么?
接下来的章节安排如下:第 2 节介绍核心定义,包括视觉推理、单体视觉推理与组合式视觉推理;第 3 节从多个角度分析组合式视觉推理的优势,包括与人类推理的认知对齐、语义与关系理解、泛化与鲁棒性、透明性与可解释性、模块化复用、减轻语言偏差与幻觉、以及降低数据需求所带来的效率提升;第 4 节概述一个多阶段路线图,展示组合式视觉推理从基于提示增强的 LLM 中心方法,演进到统一的智能体式 VLM 架构的发展轨迹;第 5 节回顾现有基准与评测方法;最后,第 6 节总结关键挑战,并讨论未来 CVR 系统的研究方向。