高斯喷溅(Gaussian Splatting)作为一种实时三维场景表示的变革性技术,近年来迅速崛起,为神经辐射场(NeRF)提供了一种高效且具有强表达力的替代方案。其能够高保真渲染复杂场景的能力,推动了场景重建、机器人技术以及交互式内容创作等领域的进展。更近期,将大型语言模型(LLMs)与语言嵌入整合进高斯喷溅管线,为基于文本的生成、编辑以及语义场景理解开辟了新的可能性。尽管取得了这些进展,但在这一新兴交叉领域中,仍缺乏系统性的综述。为此,本文对结合语言引导与三维高斯喷溅的最新研究工作进行了结构化回顾,详细阐述了其理论基础、集成策略以及真实世界应用案例。我们还指出了当前的主要局限性,包括计算瓶颈、泛化能力不足以及缺乏带有语义标注的三维高斯数据,并提出了在利用高斯喷溅推动语言引导三维场景理解方面的开放挑战与未来发展方向。
受机器人、自主导航与娱乐等应用的驱动,以及虚拟现实(VR)与增强现实(AR)中对沉浸式体验日益增长的需求,三维场景重建已成为计算机视觉与计算机图形学中的关键研究领域。近年来,新视图合成(Novel View Synthesis, NVS)技术取得了显著进展,其中两个方法在学术界获得了广泛关注:三维高斯喷溅(3D Gaussian Splatting, 3DGS)[76] 与神经辐射场(NeRF)[114]。 在 NeRF 出现之前,已有多种神经隐式表示方法验证了在连续函数空间中编码三维几何的可行性。Occupancy Networks [112] 和 DeepSDF [123] 分别于 2018 年和 2019 年提出,通过神经网络建模占据概率或符号距离场(Signed Distance Field, SDF)来表示三维形状。这些方法为后续体素化场景表示奠定了基础。 在此基础上,NeRF 通过将视角相关的辐射信息引入表示方式,实现了范式转变。它使用三维空间坐标(𝑥, 𝑦, 𝑧)表示空间点,并用两个角度坐标(𝜃, 𝜙)表示相对于场景的观察方向,从而利用深度全连接神经网络实现了隐式的三维场景编码。这种结构能够同时生成体积密度与视角相关的 RGB 颜色。尽管 NeRF 在渲染质量上表现出色,但其训练与推理时间较长,使其难以应用于实时场景 [120]。为缓解 NeRF 的性能瓶颈,InstantNGP [120] 在架构上进行了优化,实现了实时训练与渲染。然而,即便有这些改进,其依赖的隐式场景表示仍限制了重建的灵活性与可控性。 与之形成对比的是,Kerbl 等人 [76] 提出了三维高斯喷溅(3DGS)作为一种灵活、显式的场景表示方法。与许多早期基于 NeRF 的方法类似,它首先通过基于运动结构(Structure-from-Motion, SfM)[149] 估计相机位姿,并利用得到的稀疏点云初始化一组三维高斯分布。不同于依赖稠密多视图立体(Multi-View Stereo)重建的点云方法,3DGS 仅通过稀疏初始化即可实现高质量结果。随后,它优化可微分的体积表示,将每个高斯通过标准的 α 混合(alpha-blending)[114] 投影到二维,实现高效且真实感强的渲染。 与三维表示技术并行发展的,是大型语言模型(Large Language Models, LLMs)与视觉-语言模型(Vision-Language Models, VLMs)的兴起,它们重塑了计算机视觉与人工智能的格局。LLMs 在语言理解、生成、翻译与推理方面表现出卓越能力,能够作为从写作到编程等任务的“副驾驶”。与此同时,VLMs 通过实现开放词汇识别、零样本分类、分割与定位等任务,突破了以往封闭、类别特定训练的限制。这类视觉模型利用对齐的图像-文本表示,从而以更具泛化性和语义丰富度的方式理解与标注视觉内容。 在此基础上,多模态大型语言模型(Multimodal LLMs, MLLMs)进一步发展,可同时处理并推理语言、视觉与音频等多种数据模态,从而在一定程度上模拟人类的感知与交互能力。 然而,尽管 VLMs 与 MLLMs 已在二维感知任务上取得重大进展,将这些能力拓展到三维仍是一大挑战。现实世界本质上是三维的,要在三维中实现空间推理、物体交互与场景级理解,需要保证几何一致性、多视图对齐以及精确的相机估计——这些问题并非二维模型所能直接解决。将二维知识直接投射到三维空间,往往会引入歧义,并丢失结构与语义上的准确性。对于未来需要与真实环境交互的具身智能(Embodied AI)系统而言,从场景布局到细粒度物体语义的深度与结构化三维理解是必不可少的,单纯依赖二维视觉会限制这一潜力。与此同时,VLMs 与 MLLMs 所具备的世界知识、组合推理与泛化能力,如果能被恰当地引入三维任务,将显著提升三维场景理解效果。 随着三维高斯喷溅迅速成为照片级真实感与实时三维场景表示的新标准,以及基础模型逐步融入三维处理流程,我们认为有必要对这一新兴交叉领域进行系统性回顾。尤其是,越来越多的研究开始探索将 VLMs 与 LLMs 引入三维场景表示,以应对语义场景理解、视觉-语言对齐、自动标注与交互等任务 [35, 105, 182]。然而,迄今尚无工作对语言嵌入与 3DGS 的结合进行全面探讨。我们的目标是首次对这一快速发展的方向提供深入的研究视角。 本文采用教程式结构,旨在引导读者理解并评估将语言嵌入整合进三维场景理解的关键组成部分。我们首先介绍三维高斯喷溅这一实时三维场景表示的最新方法,解析其核心流程,并与基于 NeRF 的技术加以区分。接着,回顾语言嵌入方法的发展历程,从早期的词嵌入到现代的 LLMs 与 VLMs。在此基础上,我们探讨语言模型如何与 3DGS 结合,以应对复杂的场景理解任务。全文还将结合真实应用案例,讨论当前的局限性,并指出开放的研究方向,以期为该新兴领域的未来发展提供启发与指导。 三维高斯喷溅(3D Gaussian Splatting, 3DGS)已成为一种高效且灵活的实时三维场景表示与渲染方法。与依赖计算量巨大的体素光线行进(volumetric ray marching)的基于体积的神经表示(如 NeRF)不同,3DGS 使用一组参数化的三维高斯分布来表示场景。每个高斯由其空间位置、不透明度、形状(各向异性协方差)以及颜色信息定义,从而形成一种显式且可微分的表示,可实现高效光栅化 [76]。 该方法建立在传统的基于运动结构(Structure-from-Motion, SfM)技术之上,通过 SfM 相机标定生成的点云初始化稀疏的三维高斯集合。不同于许多依赖稠密多视图立体(Multi-View Stereo, MVS)重建的点云方法,高斯喷溅仅使用稀疏点云作为输入即可生成高质量的新视图合成。其流程如图 1 所示。