3D visual grounding aims to localize the object in 3D point cloud scenes that semantically corresponds to given natural language sentences. It is very critical for roadside infrastructure system to interpret natural languages and localize relevant target objects in complex traffic environments. However, most existing datasets and approaches for 3D visual grounding focus on the indoor and outdoor driving scenes, outdoor monitoring scenarios remain unexplored due to scarcity of paired point cloud-text data captured by roadside infrastructure sensors. In this paper, we introduce a novel task of 3D Visual Grounding for Outdoor Monitoring Scenarios, which enables infrastructure-level understanding of traffic scenes beyond the ego-vehicle perspective. To support this task, we construct MoniRefer, the first real-world large-scale multi-modal dataset for roadside-level 3D visual grounding. The dataset consists of about 136,018 objects with 411,128 natural language expressions collected from multiple complex traffic intersections in the real-world environments. To ensure the quality and accuracy of the dataset, we manually verified all linguistic descriptions and 3D labels for objects. Additionally, we also propose a new end-to-end method, named Moni3DVG, which utilizes the rich appearance information provided by images and geometry and optical information from point cloud for multi-modal feature learning and 3D object localization. Extensive experiments and ablation studies on the proposed benchmarks demonstrate the superiority and effectiveness of our method. Our dataset and code will be released.


翻译:三维视觉定位旨在定位三维点云场景中与给定自然语言描述在语义上相对应的物体。对于路侧基础设施系统而言,在复杂的交通环境中理解自然语言并定位相关目标物体至关重要。然而,现有的大多数三维视觉定位数据集和方法主要关注室内和室外驾驶场景,由于缺乏由路侧基础设施传感器捕获的配对点云-文本数据,室外监控场景的研究仍处于空白。本文提出了一种面向室外监控场景的三维视觉定位新任务,该任务能够实现超越单车视角的基础设施级交通场景理解。为支持此任务,我们构建了MoniRefer,这是首个面向路侧层级三维视觉定位的真实世界大规模多模态数据集。该数据集包含约136,018个物体及411,128条自然语言描述,采集自真实世界环境中多个复杂的交通路口。为确保数据集的质量与准确性,我们人工核验了所有物体的语言描述和三维标注。此外,我们还提出了一种名为Moni3DVG的端到端新方法,该方法利用图像提供的丰富外观信息,以及点云提供的几何与光学信息,进行多模态特征学习和三维物体定位。在提出的基准数据集上进行的大量实验与消融研究证明了我们方法的优越性与有效性。我们的数据集与代码将予以公开。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员