在机器越来越多地融入我们日常生活的时代,它们感知和理解三维世界的能力变得极为重要。这一能力的核心是场景表示,它将感官数据转换成紧凑、详细且整体的环境描述。虽然深度学习,特别是卷积神经网络(CNNs),已经革新了计算机视觉的许多方面,但其主要关注点仍然是2D信息。本论文深入探讨了将这些技术转向3D环境的挑战与潜能,旨在弥合机器感知与类人空间理解之间的鸿沟。

我们的主要目标是开创针对准确的三维重建和全面的三维场景理解而定制的神经场景表示的发展。我们首先介绍了一种为基于深度学习的三维重建量身定制的可扩展场景表示。这种表示能够以连续、不受分辨率限制的方式捕捉3D形状,有效地解决了传统显式基方法的限制。接下来,通过引入一个可微的点到网格层,我们提出了一种轻量级表示,确保了高质量重建与快速推理,满足了现实世界应用中对速度的需求。此外,我们还探索了采用层次化神经隐式表示的密集视觉同时定位与地图构建(SLAM)系统,这种方法能够在大规模室内场景中实现详细重建,推动了当前SLAM系统的边界。最后,我们的研究以开发用于广泛三维场景理解任务的统一场景表示为高潮,绕过了对昂贵的3D标注数据的需求。

总之,本论文提出了一系列在神经场景表示方面的进展,提供了不仅增强了三维重建能力而且提升了三维场景理解水平的解决方案,使我们更接近于实现与人类认知相镜像的机器感知

随着科学技术的快速发展,机器已无缝地融入我们的日常生活中。现在,我们发现自己与能够驾驶汽车、组织我们的家庭乃至协助进行医疗手术的机器一同生活。这些进步的核心在于机器对周围环境的感知和理解能力。 为了有效地感知三维世界,机器需要从感官数据中建模周围环境。特别是,准确地表示和重建细致的几何形态以匹配其现实生活中的对应物,对于增强现实/虚拟现实、自动驾驶、机器人技术等应用至关重要。然而,从头开始创建细致的几何形态是一项劳动密集型任务,需要专门的专业知识。尽管出现了先进的软件和用户友好型建模工具,但像可扩展性和速度这样的挑战阻碍了它们的大规模部署。如何快速准确地为大场景构建几何细节是本论文的主要关注点。

一旦三维环境被准确构建,同样重要的是理解重建对象的语义、可供性、功能和物理属性。这种全面理解对于机器在日常场景中与人类智能互动至关重要。然而,传统方法往往针对特定任务量身定做,例如对有限类别集进行的3D语义分割,留下其他任务未被解决。实现对3D场景的广泛理解是本论文的另一个目标。

场景表示,即将环境的观察(无论是视觉的、触觉的、听觉的还是其他的)转换为环境的简洁模型,对于旨在准确重建逼真场景并全面理解我们世界的机器自然至关重要。近期在深度学习方面的进展,特别是卷积神经网络(CNNs)的出现,提供了一种推导出健壮且强大的场景表示的有希望的方式,这里称为神经场景表示。 CNNs已经革命性地改变了许多计算机视觉任务,特别是在图像分类和深度估计等领域,展示了深度学习处理视觉信息的潜力。然而,它们的绝大多数能力都集中在处理2D信息上。将这些以2D为重点的技术转移到3D环境中带来了独特的挑战。为了有效地建模和理解复杂的世界,对机器来说,学习3D场景表示至关重要,这能使机器获得类似于人类感知世界的更深层次的空间理解。

本论文的目标是开创神经场景表示的发展,专门为准确重建和全面理解3D世界量身定做。我们的路线图标记着清晰的里程碑,它们都紧密相连。首先,我们想开发一种可扩展的场景表示,能够忠实地重建详细的3D几何形态,从对象到大规模场景都能覆盖。接下来,通过整合一种新颖的可微分点到网格层,我们可以仅使用轻量级点云来表示详细形状,并加速3D重建过程。第三,我们还研究了一种层次化神经场景表示,特别是为大型室内场景中的密集RGB-D SLAM应用赋能。一旦获得场景的3D重建,论文的最后一部分是为众多3D场景理解任务产生3D神经场景表示,仅利用2D预训练模型,从而绕过了任何昂贵的3D标注数据的需求。 总体而言,本论文探讨了各种神经场景表示,以高效地产生详细的3D场景重建,并随后将3D场景理解的边界推向另一个水平。在下一节中,我们将深入讨论实际问题和挑战。

成为VIP会员查看完整内容
35

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETHZ博士论文】在弱监督学习中施加和揭示群组结构
专知会员服务
20+阅读 · 2023年10月15日
【迪肯大学博士论文】深度神经网络视觉推理
专知会员服务
45+阅读 · 2022年10月3日
专知会员服务
71+阅读 · 2021年7月29日
专知会员服务
64+阅读 · 2021年7月25日
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
【KDD2020】图神经网络:基础与应用,322页ppt
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
Arxiv
159+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
148+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
15+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员