给予机器精确感知并理解三维视觉世界的能力,是让它们能够在我们的物理世界中有效交互的基础步骤。然而,由于3D形状的复杂几何结构和有限的高质量数据资源,大规模3D场景理解和感知的研究仍处于初级阶段。在各种3D表示中,点云因其灵活性、紧凑性以及接近原始感知数据的特性而引起了越来越多的关注。尽管如此,由于其无序、非结构化和非均匀的特性,对大规模3D点云的语义理解仍然是一个挑战。为此,本论文从高质量的城市规模数据集出发,做出了三个核心贡献,然后完全监督语义理解,以便弱监督标签有效学习大规模3D点云。本论文的主要贡献有三个方面。在第三章中,我们首先构建了一个拥有近30亿丰富注释点的城市规模光学测量点云数据集。我们还识别出城市规模3D场景理解面临的一些开放和独特的挑战,并进行全面的实验分析来应对这些挑战。这项工作指出了现有算法的局限性,并为理解城市环境中大规模3D点云提供了一些深思熟虑的结论。
在第四章中,我们利用高质量的大规模3D数据集,进一步研究大规模3D点云有效语义分割的研究问题。我们首先分析现有下采样策略的优点和缺点,发现随机抽样是大规模点云有效学习的适合组成部分。此外,我们提出了一个本地特征聚合模块,以分层方式增加感受野,并保留重要特征。然后,我们构建了一个高效的轻量级神经结构RandLA-Net,可以直接推断出数百米范围内包含数百万点的大规模点云的每一点语义。在第五章中,我们更进一步研究大规模3D点云的标签高效学习问题,即在有限注释的情况下实现高质量的语义分割。我们首先检查3D点云弱监督学习中的关键问题,包括不同的弱监督方案和弱注释的关键点。通过一个初步研究,我们发现密集的3D注释实际上是冗余和不必要的。受此启发,我们提出了一个新的弱监督框架,通过利用邻近点之间的语义同质性,隐式增加了可用监督信号的总量。这是通过一个点邻域查询实现的,允许稀疏的训练信号被反向传播到更广泛的上下文。本论文中提出的所有算法和数据集都已经在GitHub上开源,以便于未来的研究。RandLA-Net算法被认为是CVPR 2020会议上最具影响力的论文之一,并已被整合到Open3D和TorchPoints3D等代码库中。SensatUrban数据集被用作两次Urban3D挑战的平台,为城市规模点云的语义理解的进步做出了贡献。总的来说,这篇论文呈现了一个高质量的数据集和两个新颖的数据驱动算法,目标是实现大规模3D点云的有效、可扩展和有效的基于学习的语义理解,最终提高智能机器在实践中的实时3D感知能力。
牛津大学是一所英国研究型大学,也是罗素大学集团、英国“G5超级精英大学”,欧洲顶尖大学科英布拉集团、欧洲研究型大学联盟的核心成员。牛津大学培养了众多社会名人,包括了27位英国首相、60位诺贝尔奖得主以及数十位世界各国的皇室成员和政治领袖。2016年9月,泰晤士高等教育发布了2016-2017年度世界大学排名,其中牛津大学排名第一。