基于文本的3D视觉定位综述：要素、最新进展与未来方向

基于文本的3D视觉定位（T-3DVG）旨在从复杂的3D场景中定位与语言查询语义对应的特定对象，近年来在3D研究社区中引起了越来越多的关注。与2D视觉定位相比，这项任务由于其更贴近现实世界以及数据收集和3D点云处理的复杂性，展现了巨大的潜力和挑战。在本综述中，我们尝试提供一个关于T-3DVG进展的全面概述，包括其基本要素、最新研究进展和未来研究方向。据我们所知，这是首个关于T-3DVG任务的系统综述。具体来说，我们首先以教程风格提供T-3DVG流程的一般结构及其详细组成部分，呈现一个完整的背景概述。然后，我们将现有的T-3DVG方法总结为不同类别，并分析其优缺点。我们还介绍了评估其性能的基准数据集和评价指标。最后，我们讨论了现有T-3DVG方法的潜在局限性，并分享了一些有前景的研究方向见解。最新的论文不断收集于https://github.com/liudaizong/Awesome-3D-Visual-Grounding。

** 1.1 定义与历史**

基于点云的3D场景，文本引导的3D视觉定位（T-3DVG）任务[7][8]旨在根据自由形式的语言描述定位特定的3D对象。例如，如图1所示，对于句子描述“这张浅棕色的沙发在树旁边。它在一个大窗户的前面。它在一个有蓝色和浅棕色图案的椅子旁边。”，T-3DVG需要预测对应对象“沙发”的精确边界框（图中的绿色框）。作为一个基础但具有挑战性的视觉-语言任务，T-3DVG是各种下游视觉-语言任务的中间步骤，如多模态3D场景理解[9][10]、语言引导的机器人抓取[11]和3D具身交互[12]。这些任务首先需要根据给定的查询（图像或文本）定位相关对象，然后将检索到的对象与场景内的空间相关背景进行关联，以推理并输出适当的中间特征、答案或动作。因此，T-3DVG在为许多现有3D相关多模态任务提供稳健推理能力方面起着关键作用。 T-3DVG还与一些经典的多模态任务有相似之处。例如，文本引导的2D视频定位[13][14][15]和图像定位[16][17]旨在从视频/图像中定位与句子查询相关的特定时刻/对象。这些2D任务需要匹配视频帧或图像的语义特征与查询，以确定时刻边界或对象位置。相比之下，T-3DVG仅具有坐标点，而没有任何实例的先验知识来与句子匹配。此外，T-3DVG更具挑战性，因为场景数据比2D图像包含更复杂的空间关系和复杂的背景内容。因此，T-3DVG需要全面理解不同对象的空间关系，并在场景数据中进行推理。

T-3DVG还类似于图像引导的3D检测[18][19][20]，其目标是通过查询其2D图像在室外场景中定位特定对象。由于图像和点云之间共享了相同的对象外观和形状信息，这项任务仅需在跨模态语义间进行简单匹配。不同的是，T-3DVG更具挑战性，因为其语言指导仅提供文本信息，但具有复杂的空间关联，使得在复杂场景中检索对象变得困难。

T-3DVG任务在2020年提出[7][8]。过去几年中发表的文本引导的3D视觉定位研究工作大致可分为两种类型：两阶段和单阶段框架。具体而言，两阶段框架[21][22][23]首先通过预训练的3D检测器定义多个对象提议，然后通过语言文本推理对象以确定最佳对象。尽管这种框架已取得显著性能，但它依赖于3D检测器的质量，并且需要耗时的多提议推理，而框架不是端到端的。不使用对象提议的单阶段框架[24][25][26]将整个3D场景作为输入，以端到端方式嵌入点级特征。在点-文本跨模态推理后，直接回归文本引导对象的空间边界框。然而，该框架忽略了全局点之间的丰富信息，未能建模对象级别的关联，因此其预测的对象提议相对粗糙。为了应对上述挑战，早期提出了大量设计更好特征编码器和跨模态交互器的工作[27][28]。随后，研究了额外的上下文语义（如2D辅助数据、多视角数据）[29][30]，以提高文本-场景理解的鲁棒性和泛化能力。研究人员还探索了全监督和弱监督学习[7][31]等不同设置，以在实际应用中实现这一任务。多种类型的架构，如基于CNN的[7]、基于MLP的[8]和基于Transformer的[27]，进一步被引入以从不同角度解决该任务。

1.2 动机与意义

然而，在缺乏详细指导的情况下，大量现有的T-3DVG方法可能容易让试图为手头特定问题选择或设计合适算法的研究人员或从业者感到困惑。为此，本文提出了对基于文本的3D视觉定位研究的最新方法和发展的全面分类法。我们收集了计算机视觉（CV）、自然语言处理（NLP）、多媒体（MM）、信息检索（IR）和机器学习领域的知名会议和期刊上的论文，如CVPR、ECCV、ICCV、WACV、EMNLP、ACM MM、NeurIPS、AAAI等。论文主要发表于2020年至2024年。图2总结了收集到的论文统计数据。通过抽象所有方法中的共同点，我们总结了不同类型的3D定位方法，并揭示了T-3DVG模型的通用流程。我们还详细概述了现有T-3DVG模型的一般要素，并讨论了它们的优缺点。最后，我们在这篇综述论文中总结了更具体和有前景的未来研究方向（如使用强大的大模型，设计更实用的设置）。

具体来说，我们的这项综述工作有三方面的动机：

基于文本的3D视觉定位是多媒体理解的重要任务，它需要通过不受限制的自然语言句子在复杂的3D场景中指示一个空间敏感的对象。据我们所知，这是首次对3D定位技术进行分类，并详细阐述各类别方法的优缺点的综述。
深入讨论基于文本的3D视觉定位的重要问题： (1) 应如何处理一般的3D定位数据？ (2) 3D定位方法通常是什么样子以及它如何工作？ (3) 现有框架最本质的改进是什么？ (4) 未来需要解决的任务问题有哪些？
全面比较和分析在公开可用的3D定位基准上的实验结果，帮助读者更好地理解每种方法的性能及其相应的网络架构。我们的目标是提供以上关于T-3DVG方法组成和T-3DVG研究现状的视角。有了这些视角，知情的从业者可以自信地评估各种T-3DVG方法的权衡，并做出关于使用一套技术来设计T-3DVG解决方案的明智决策。 本综述的组织结构如下。在第2节中，我们介绍了T-3DVG方法的一般流程，并以教程方式说明技术细节，向读者提供关于T-3DVG模型的一般外观和功能组件的背景知识。第3节总结了基本的基准数据集和评价指标。第4节将T-3DVG解决方案分为几类，详细阐述每类方法，并讨论其优缺点。第5节通过性能比较总结当前研究进展。第6节讨论了未解决的问题和进一步的研究方向。第7节总结全文。