在近几十年中,智能机器逐渐成为我们日常生活中不可或缺的一部分,例如增强/虚拟现实头显、自动驾驶汽车和机器人。为了在三维世界中成功完成各种任务,这些机器需要具备三维感知能力,能够借助多种传感器准确地感知和理解周围环境。在这些传感器中,摄像头是最常见的一种,并以图像的形式提供丰富的视觉信息。深度学习,尤其是卷积神经网络(CNN)和Transformer架构,已经彻底改变了计算机视觉的诸多研究领域。然而,该领域的研究主要集中在二维图像平面上的表示与推理。

与此不同,三维感知工作于三维空间,旨在赋予机器如同人类般“看见”三维世界的能力。因此,三维感知更具挑战性,因为它不仅需要空间推理能力,还对计算资源有更高的要求,尤其是在场景规模扩大的情况下。为了解决这些挑战,本论文的核心目标是探索和发展用于高效且精确的三维感知的神经表示,涵盖三维定位、重建与渲染等任务。

首先,我们研究具备可比性能的高效神经表示。当前许多用于三维感知的技术需要大量计算资源,这对计算能力有限的边缘设备构成了挑战。我们首先提出了可扩展的神经表示方法,在大规模场景中实现视觉定位,仅依赖一个小型神经网络。与传统的特征匹配方法相比,我们的方法无需存储点云或特征描述子。

接下来,在给定一组已标定图像的情况下,我们探索适用于大规模场景的高效三维重建神经表示。具体而言,我们提出了轻量化的网络架构,迭代估计深度图用于重建,从而显著减少GPU内存消耗和运行时间。

其次,我们在具有挑战性的真实场景中研究精确的神经表示。在稀疏视角、反射以及动态变化等复杂情形下,准确地表示现实世界仍然非常困难。我们研究了如何稳健地重建和渲染包含反射的复杂真实场景。为此,我们将多种神经表示进行有机整合,以提升不同类型场景的重建质量。

总之,本论文提出了一系列在三维感知中提升效率与精度的神经表示方法。这些研究成果不仅提供了将算法高效部署到机器上的解决方案,也为弥合机器感知与人类空间理解之间的差距迈出了重要一步。

成为VIP会员查看完整内容
0

相关内容

【博士论文】社交与对抗性数据源下的可信机器学习
专知会员服务
18+阅读 · 2024年8月9日
【NUS博士论文】深度视觉算法的对抗鲁棒性研究
专知会员服务
33+阅读 · 2022年11月25日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
468+阅读 · 2023年3月31日
Arxiv
170+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员