基于文本的3D视觉定位(T-3DVG)旨在从复杂的3D场景中定位与语言查询语义对应的特定对象,近年来在3D研究社区中引起了越来越多的关注。与2D视觉定位相比,这项任务由于其更贴近现实世界以及数据收集和3D点云处理的复杂性,展现了巨大的潜力和挑战。在本综述中,我们尝试提供一个关于T-3DVG进展的全面概述,包括其基本要素、最新研究进展和未来研究方向。据我们所知,这是首个关于T-3DVG任务的系统综述。具体来说,我们首先以教程风格提供T-3DVG流程的一般结构及其详细组成部分,呈现一个完整的背景概述。然后,我们将现有的T-3DVG方法总结为不同类别,并分析其优缺点。我们还介绍了评估其性能的基准数据集和评价指标。最后,我们讨论了现有T-3DVG方法的潜在局限性,并分享了一些有前景的研究方向见解。最新的论文不断收集于https://github.com/liudaizong/Awesome-3D-Visual-Grounding。
** 1.1 定义与历史**
基于点云的3D场景,文本引导的3D视觉定位(T-3DVG)任务[7][8]旨在根据自由形式的语言描述定位特定的3D对象。例如,如图1所示,对于句子描述“这张浅棕色的沙发在树旁边。它在一个大窗户的前面。它在一个有蓝色和浅棕色图案的椅子旁边。”,T-3DVG需要预测对应对象“沙发”的精确边界框(图中的绿色框)。 作为一个基础但具有挑战性的视觉-语言任务,T-3DVG是各种下游视觉-语言任务的中间步骤,如多模态3D场景理解[9][10]、语言引导的机器人抓取[11]和3D具身交互[12]。这些任务首先需要根据给定的查询(图像或文本)定位相关对象,然后将检索到的对象与场景内的空间相关背景进行关联,以推理并输出适当的中间特征、答案或动作。因此,T-3DVG在为许多现有3D相关多模态任务提供稳健推理能力方面起着关键作用。 T-3DVG还与一些经典的多模态任务有相似之处。例如,文本引导的2D视频定位[13][14][15]和图像定位[16][17]旨在从视频/图像中定位与句子查询相关的特定时刻/对象。这些2D任务需要匹配视频帧或图像的语义特征与查询,以确定时刻边界或对象位置。相比之下,T-3DVG仅具有坐标点,而没有任何实例的先验知识来与句子匹配。此外,T-3DVG更具挑战性,因为场景数据比2D图像包含更复杂的空间关系和复杂的背景内容。因此,T-3DVG需要全面理解不同对象的空间关系,并在场景数据中进行推理。
T-3DVG还类似于图像引导的3D检测[18][19][20],其目标是通过查询其2D图像在室外场景中定位特定对象。由于图像和点云之间共享了相同的对象外观和形状信息,这项任务仅需在跨模态语义间进行简单匹配。不同的是,T-3DVG更具挑战性,因为其语言指导仅提供文本信息,但具有复杂的空间关联,使得在复杂场景中检索对象变得困难。
T-3DVG任务在2020年提出[7][8]。过去几年中发表的文本引导的3D视觉定位研究工作大致可分为两种类型:两阶段和单阶段框架。具体而言,两阶段框架[21][22][23]首先通过预训练的3D检测器定义多个对象提议,然后通过语言文本推理对象以确定最佳对象。尽管这种框架已取得显著性能,但它依赖于3D检测器的质量,并且需要耗时的多提议推理,而框架不是端到端的。不使用对象提议的单阶段框架[24][25][26]将整个3D场景作为输入,以端到端方式嵌入点级特征。在点-文本跨模态推理后,直接回归文本引导对象的空间边界框。然而,该框架忽略了全局点之间的丰富信息,未能建模对象级别的关联,因此其预测的对象提议相对粗糙。 为了应对上述挑战,早期提出了大量设计更好特征编码器和跨模态交互器的工作[27][28]。随后,研究了额外的上下文语义(如2D辅助数据、多视角数据)[29][30],以提高文本-场景理解的鲁棒性和泛化能力。研究人员还探索了全监督和弱监督学习[7][31]等不同设置,以在实际应用中实现这一任务。多种类型的架构,如基于CNN的[7]、基于MLP的[8]和基于Transformer的[27],进一步被引入以从不同角度解决该任务。
1.2 动机与意义
然而,在缺乏详细指导的情况下,大量现有的T-3DVG方法可能容易让试图为手头特定问题选择或设计合适算法的研究人员或从业者感到困惑。为此,本文提出了对基于文本的3D视觉定位研究的最新方法和发展的全面分类法。我们收集了计算机视觉(CV)、自然语言处理(NLP)、多媒体(MM)、信息检索(IR)和机器学习领域的知名会议和期刊上的论文,如CVPR、ECCV、ICCV、WACV、EMNLP、ACM MM、NeurIPS、AAAI等。论文主要发表于2020年至2024年。图2总结了收集到的论文统计数据。通过抽象所有方法中的共同点,我们总结了不同类型的3D定位方法,并揭示了T-3DVG模型的通用流程。我们还详细概述了现有T-3DVG模型的一般要素,并讨论了它们的优缺点。最后,我们在这篇综述论文中总结了更具体和有前景的未来研究方向(如使用强大的大模型,设计更实用的设置)。
具体来说,我们的这项综述工作有三方面的动机: