空间推理(spatial reasoning)要求具备在三维世界中感知与操控空间关系的能力,是人类智能的基本组成部分,但对于多模态大型语言模型(MLLMs)而言依然是一个长期存在的挑战。尽管现有综述通常依据输入模态(如文本、图像、视频或三维数据)对最新进展进行分类,我们认为空间能力并不完全由输入格式决定。相反,本综述从认知角度提出一套空间智能的分类体系,并依据推理复杂度对任务进行划分,将其关联到多种认知功能。 我们将现有的基准数据集映射到这一分类体系中,覆盖纯文本、视觉–语言以及具身(embodied)设定,并回顾用于评估空间推理能力的指标与方法。该认知视角使跨任务比较更具原则性,并揭示了当前模型能力与类人推理之间的关键鸿沟。 此外,我们分析了提升空间能力的方法,涵盖基于训练(training-based)和基于推理(reasoning-based)两大类策略。这一双视角分析澄清了各自的优势,并揭示了它们可互补的机制。 通过对任务、基准与最新研究进展的系统性梳理,我们旨在为新入门研究者提供对该领域的全面理解,并提出可行的未来研究方向。

1 引言

大型语言模型(LLM)的发展代表了人工智能领域的重要里程碑,展现出在理解、推理和生成类人自然语言方面前所未有的能力。这些模型构建于深度学习架构(如 Transformer(Minaee et al., 2024; Vaswani et al., 2017))之上,并在海量语言语料上进行预训练,使其能够执行多种语言中心任务,从翻译、摘要到复杂推理(Han et al., 2024; Kalyan, 2023)。诸如 GPT-3 这样的模型展示了其在小样本学习(few-shot learning)中的潜力(Brown et al., 2020),其仅需极少示例便能适应新任务。这些进展确立了语言智能作为现代人工智能研究基石的地位,并证明了其在广泛语言任务上的可扩展泛化能力。 在 LLM 的语言能力基础上,研究者进一步寻求迈向视觉感知与理解。视觉–语言模型(VLMs)通过将视觉编码器(Dosovitskiy et al., 2021; Liu et al., 2021a; Radford et al., 2021; Liu et al., 2022)与预训练的 LLM 主干相结合,试图弥合感知与语言之间的鸿沟。然而,类人智能中一个至关重要却仍具挑战性的方面是空间智能(spatial intelligence)——即感知、理解和推理物体之间空间关系、朝向以及运动(无论在真实空间还是想象空间中)的能力。尽管人类能够轻松地在三维世界中导航与交互,但让 LLM 和 VLM 具备可比的空间理解能力仍是人工智能研究中的前沿问题。

语言智能与空间智能之间的鸿沟既表现为不同的任务类别,也隐含体现在不同的人类心理表征之中,如图 1 所示。LLMs 在语言智能方面表现出高度熟练,主要基于文本与代码等语言数据进行操作;而空间智能则涉及在具身、三维环境中进行推理,使得机器人导航与物体操控等能力成为可能。其背后的根本原因在于一种基础性的表征不匹配:物理世界具有连续的几何结构,而 LLMs 将信息编码并解释为离散的序列符号(tokens)。它们学习空间概念并非源自几何原理,而是来自大规模文本与图像数据中的统计共现偏置。例如,它们之所以“知道”词语 “left of” 常出现在 “cube” 与 “circle” 之间,是因为统计规律,而非真正理解这些对象的几何关系。 这种语言智能与空间智能的根本差异深植于认知科学与神经机制之中。从认知科学角度,人类进行空间推理并非仅依赖语言表达,而是依赖心智模型(mental models)——一种可以保持物体之间几何与拓扑关系的内部类比表征(Johnson-Laird, 1986; Tversky, 1993)。这些心智模型使人能够心理模拟旋转、平移与视角变化等空间变换(Byrne & Johnson-Laird, 1989)。相比之下,语言将这些连续关系压缩为离散的类别化符号(如“左侧”“后方”“上方”),提供的是定性空间关系,而非几何量化编码(Cohn & Renz, 2008)。神经机制的证据进一步强调了这一差异:海马–内嗅皮层回路通过“位置细胞(place cells)”与“网格细胞(grid cells)”支持空间认知,这些机制编码了全向的空间地图与环境的度量结构(O’Keefe & Dostrovsky, 1971; Hafting et al., 2005; Stensola & Moser, 2016)。这种连续神经编码形成了内部坐标系统,使路径积分、位置追踪和空间中的心理导航成为可能(Basu & Nagel, 2024)。与此形成鲜明对比,语言在大脑皮层中的表征主要是顺序化、离散化的,优化目标是语言组合与符号预测,而非度量空间计算。 这种类比空间编码与离散语言编码之间的不匹配构成了经典的表征层面的扎根问题(representation-level grounding problem)(Harnad, 1990)。LLMs 缺乏可用于心理建模或调整空间关系的内部空间地图。即便是具有视觉感知基础的 VLMs,通常也局限于 2D 或投影式表征,并不具备更深层的三维空间心智建模。弥合这一鸿沟仍是一个艰巨挑战,而我们提出的认知功能分类体系正是为揭示并系统化呈现当前模型能力中存在的这些不足。

动机与应用

推动 LLMs 与 VLMs 的空间智能发展对于使现代 MLLMs 进化为能够理解并与真实世界交互的综合世界模型至关重要。尽管模型在语言中心任务中取得了显著进展(Brown et al., 2020; Wei et al., 2023),其对空间关系的理解仍是主要瓶颈(Zhang et al., 2025b; Han et al., 2025)。当考虑到大量需要空间感知与连续物理交互的具身应用时,这一限制尤为关键。正如图 2 所示,稳健的空间智能对于 MLLMs 在多个高影响力领域的成功部署具有重要意义:

机器人学(Robotics):为了使机器人能够在非结构化环境中真正发挥作用,其必须能够推理物体与位置之间的几何关系(Landsiedel et al., 2017)。这包括抓取、避障以及在杂乱空间中导航等任务,均要求对空间动态有精细理解。 * 自动驾驶(Autonomous Driving):自动驾驶车辆的安全与可靠性根本依赖其感知并推理空间周围环境的能力,包括解析传感器数据以理解道路上其他车辆、行人与交通标志的位置和轨迹,从而做出实时关键决策(Huang et al., 2022)。 * 增强与虚拟现实(AR/VR):在 AR/VR 中,用户沉浸感与系统效用直接取决于模型理解与操控空间信息的能力(Bozkir et al., 2024; Park et al., 2024)。AR 需要准确将数字信息叠加到现实世界中;VR 则需生成真实且可交互的三维虚拟环境。 * 导航(Navigation):无论是使用 AR 增强地图的用户,还是在仓库中配送物资的自主机器人,都必须能够理解并执行空间指令(Lin et al., 2025),包括路线描述、位置关系与对象间相对方位。

为 MLLMs 赋予强大的空间能力将使其能够真正跨越数字世界与物理世界,推动更具能力与更安全的 AI 系统的发展。

与现有综述的比较

尽管近期已有综述系统地梳理了具备 3D 能力的 LLM 的研究版图,我们的工作提出了一个独特的组织框架。例如,Ma et al. (2024b) 提供了针对 LLM 在 3D 任务中所扮演角色的元分析,如场景理解、描述生成与具身导航。另一些综述如 Zha et al. (2025) 则依据主要输入模态建立分类体系,将图像、点云与混合型方法区分开来。 与这些基于模态或任务的分类体系不同,我们认为真正的空间智能并非由输入格式或具体应用单独决定,而是由模型如何感知、表征与操控空间信息的底层认知过程所决定。这些过程包括模型如何建立参照系、使用何种空间信息,以及是执行静态理解还是动态心理变换。此外,空间智能也由推理复杂度深度所衡量——即模型是否能够从直接感知跃升至多步推理、链式推理与组合式问题求解。 基于此,我们引入了一种从认知功能视角组织的全新分类体系,通过三个基本维度分析空间任务,并将其划分为四个层级的推理复杂度。该认知中心的框架不仅支持更深入的跨任务比较,也有助于揭示当前模型能力与类人空间智能之间的关键差距。

贡献

本文对 MLLMs 的空间智能提供了结构化且深刻的综述。图 3 总结了我们的主要贡献如下: 1. 提出全新的认知视角分类体系:将空间任务划分为五个基本类别与四个推理复杂度层级,实现了超越模态驱动分类的更原则化比较,并揭示了模型能力与人类空间智能之间的关键差距。 1. 基于该分类体系进行系统性综述:我们将现有基准系统性映射到该框架中,覆盖文本、视觉–语言与 3D 场景,并回顾多样化的空间智能评估指标与方法。 1. 分析提升空间智能的方法:将方法划分为基于训练与基于推理两大范式,并讨论其优势、限制以及可互补机制。

通过综合上述内容,我们旨在帮助研究者深入理解当前研究现状,并为未来研究方向提供洞见与启发。

成为VIP会员查看完整内容
0
微信扫码咨询专知VIP会员