【图宾根大学博士论文】神经场景表示在三维重建和生成建模中的应用

随着社会技术化程度的不断提升，我们使用机器执行越来越复杂的任务，这些任务范围从驾驶辅助、视频会议到探索行星。场景表示，即如何将感官数据转换为环境的紧凑描述，是使这些系统成功并确保安全的基本属性。一个有前景的方法是开发基于学习的系统，这些系统能够根据观察自我调整。

事实上，近年来深度学习已经彻底改变了计算机视觉领域。特别是更好的模型架构、大量的训练数据以及更强大的计算设备使得深度学习系统具有前所未有的性能，并且它们现在在许多基准测试中设定了最新技术水平，这些测试范围从图像分类、物体检测到语义分割。尽管这些成功，这些系统的运作方式仍然与人类认知有本质上的不同。特别是，大多数方法在2D领域操作，而人类理解图像是三维世界的投影。此外，它们通常不遵循场景的组合理解，这对人类推理来说是基本的。在这篇论文中，我们的目标是开发场景表示，使自主代理能够在复杂环境中稳定、安全地导航和行动，同时在3D中进行组合推理。为此，我们首先提出了一种用于基于深度学习的三维重建和生成建模的新型输出表示。

我们发现，与以前的表示方法相比，我们基于神经场的方法不需要对3D空间进行离散化，就可以以恒定的内存占用实现任意分辨率的重建。接下来，我们开发了一种可微渲染技术，用于从2D观察中推断出这些基于神经场的3D形状和纹理表示，并发现这使我们能够扩展到更复杂、现实世界的场景。随后，我们将我们的新型3D形状表示与空间和时间上连续的矢量场相结合，以模拟运动中的非刚性形状。我们观察到，我们的新型4D表示可用于各种判别和生成任务，范围从4D重建到4D插值，再到运动转移。最后，我们开发了一种以对象为中心的生成模型，该模型可以以组合方式生成3D场景，并且允许对生成的场景进行逼真的渲染。我们发现，我们的模型不仅提高了图像保真度，而且相比之前的工作，在仅从原始、未摆放的图像集合中训练的情况下，实现了更可控的场景生成和图像合成。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

24+阅读 · 2024年1月2日

【牛津大学博士论文】深度生成模型：表示、预测、设计在生物学领域的应用

专知会员服务

26+阅读 · 2023年12月22日

【EPFL博士论文】通过学习不变表示在深度神经网络中突破"维度诅咒"

专知会员服务

37+阅读 · 2023年11月1日

【ETHZ博士论文】在弱监督学习中施加和揭示群组结构

专知会员服务

21+阅读 · 2023年10月15日