现代人工智能(AI)为制造智能机器人创造了令人兴奋的新机会。特别是,基于梯度的学习架构(深度神经网络)在感知、推理和行动方面极大地提高了对3D场景的理解。然而,这些进步已经破坏了过去几十年发展起来的许多“经典”技术。我们假设,“经典”和“学习”方法的混合是开发灵活、可解释和可操作的世界模型的最有希望的途径: 智能具身智能体的必要性。
“结合经典技术和基于梯度的学习架构来丰富理解3D世界的理想方式是什么?”是本文的中心问题。这种理解使得大量的应用程序能够从根本上影响具身智能体如何感知和与其环境交互。这篇论文被称为“可微世界程序”,将多个密切相关但目前互不相关的领域的研究成果统一起来,包括机器人、计算机视觉、计算机图形学和人工智能。
我们的第一个贡献—gradslam—是一个完全可微的密集同时定位和映射(SLAM)系统。通过非线性最小二乘优化、光线投射、视觉测程和密集映射等不可微组件实现梯度计算,gradSLAM为集成经典3D重建和深度学习开辟了新途径。
我们的第二个贡献——任务图——提出了将大型3D场景编码为3D场景图的任务条件稀疏化。这使得经典的规划者能够通过集中计算与任务相关的场景属性来匹配(并超越)最先进的基于学习的规划者。
我们的第三个也是最后一个贡献—gradsim—是一个完全可微分的模拟器,它由可微分的物理和图形引擎组成,可以仅从视频或静态图像进行物理参数估计和视觉运动控制。