We tackle the problem of localizing 3D point cloud submaps using complex and diverse natural language descriptions, and present Text2Loc++, a novel neural network designed for effective cross-modal alignment between language and point clouds in a coarse-to-fine localization pipeline. To support benchmarking, we introduce a new city-scale dataset covering both color and non-color point clouds from diverse urban scenes, and organize location descriptions into three levels of linguistic complexity. In the global place recognition stage, Text2Loc++ combines a pretrained language model with a Hierarchical Transformer with Max pooling (HTM) for sentence-level semantics, and employs an attention-based point cloud encoder for spatial understanding. We further propose Masked Instance Training (MIT) to filter out non-aligned objects and improve multimodal robustness. To enhance the embedding space, we introduce Modality-aware Hierarchical Contrastive Learning (MHCL), incorporating cross-modal, submap-, text-, and instance-level losses. In the fine localization stage, we completely remove explicit text-instance matching and design a lightweight yet powerful framework based on Prototype-based Map Cloning (PMC) and a Cascaded Cross-Attention Transformer (CCAT). Extensive experiments on the KITTI360Pose dataset show that Text2Loc++ outperforms existing methods by up to 15%. In addition, the proposed model exhibits robust generalization when evaluated on the new dataset, effectively handling complex linguistic expressions and a wide variety of urban environments. The code and dataset will be made publicly available.


翻译:本文研究了利用复杂多样的自然语言描述对3D点云子图进行定位的问题,提出了Text2Loc++——一种新颖的神经网络,旨在通过粗到精的定位流程实现语言与点云之间的有效跨模态对齐。为支持基准测试,我们引入了一个新的城市尺度数据集,涵盖多种城市场景的彩色与非彩色点云,并将位置描述按语言复杂度分为三个层级。在全局地点识别阶段,Text2Loc++结合预训练语言模型与带最大池化的分层Transformer(HTM)提取句子级语义,并采用基于注意力的点云编码器进行空间理解。我们进一步提出掩码实例训练(MIT)以滤除未对齐物体并提升多模态鲁棒性。为增强嵌入空间,我们引入了模态感知分层对比学习(MHCL),融合跨模态、子图级、文本级及实例级损失。在精细定位阶段,我们完全移除了显式的文本-实例匹配,设计了一个基于原型地图克隆(PMC)与级联交叉注意力Transformer(CCAT)的轻量而强大的框架。在KITTI360Pose数据集上的大量实验表明,Text2Loc++相较现有方法性能提升最高达15%。此外,所提模型在新数据集上评估时展现出鲁棒的泛化能力,能有效处理复杂语言表达与多样城市场景。代码与数据集将公开提供。

0
下载
关闭预览

相关内容

根据激光测量原理得到的点云,包括三维坐标(XYZ)和激光反射强度(Intensity)。 根据摄影测量原理得到的点云,包括三维坐标(XYZ)和颜色信息(RGB)。 结合激光测量和摄影测量原理得到点云,包括三维坐标(XYZ)、激光反射强度(Intensity)和颜色信息(RGB)。 在获取物体表面每个采样点的空间坐标后,得到的是一个点的集合,称之为“点云”(Point Cloud)
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员