在过去的十年中,深度学习展现出了显著的能力,表现出对大规模数据的强烈依赖。在这一时期,我们见证了大型语言模型、扩散模型和分割模型的规模化法则生效,通过利用大规模真实世界数据集实现了接近人类水平的性能。然而,当涉及到具身AI时,由于机器人的脆弱性和有限的速度,生成真实世界数据变得具有挑战性和成本高昂。与此相反,合成数据和模拟环境提供了一种高效且经济的方法来训练机器人代理和生成精确的监督。因此,合成数据作为可扩展和高质量训练具身AI代理的数据的有希望的解决方案而出现。鉴于使代理能够泛化到真实世界场景的最终目标,围绕合成数据的主要挑战在于通过缩小模拟与现实差距(Sim2Real差距)来准确捕捉真实世界分布。解决这一挑战涉及两个关键方面:生成合成数据和有效地利用它。在这篇论文中,我展示了对这两个方面的贡献的两项工作。
第一项工作着眼于合成数据的生成。我介绍了两种旨在生成与真实世界分布一致的合成数据的方法。首先,我提出了iGibson,一个模拟环境,用于在大规模真实场景中开发机器人的交互式解决方案。iGibson构建了3D扫描真实世界家庭的交互式复制场景,使对象、布局和可交互性的分布与真实世界一致。为了进一步促进更健壮的具身代理的训练,iGibson提供了针对材料(视觉外观和动态特性)和对象形状的领域随机化程序,同时尊重对象放置的分布并保持可交互性。其次,我提出了GINA-3D,一个使用来自摄像机和LiDAR传感器的真实世界驾驶数据的生成模型,创建多样化车辆和行人的逼真的3D隐式神经资产。与iGibson不同,后者涉及在建立模拟环境时显著的人力努力,GINA-3D利用了直接学习生成与真实世界观察匹配的合成资产的生成模型。我展示了证据,表明GINA-3D在生成的视觉和几何质量方面实现了最先进的性能和多样性。
第二项工作专注于有效地利用合成数据。通过设计健壮的学习算法和模型,我们可以创建更好地泛化到真实世界场景的模型。首先,我介绍了Taskonomy,它利用合成数据构建了任务空间的计算分类法和地图。通过利用任务关系,我展示了证据,表明我们可以使用比完全监督方法少至少一个数量级的数据,且模型可以很好地泛化到真实世界数据集。然后,我介绍了情境融合,它训练代理融合一大组对应于多样化视觉感知能力的视觉表征。这种方法在新环境中的性能显著提高,超过了真实世界预训练的基线和其他融合方法。最后,我介绍了ACID,用于变形物体操纵的动作条件隐式视觉动态。通过利用大规模合成数据和独特的几何和动力学监督,我可以将模拟训练的ACID模型直接应用于真实世界物体,并在将它们操纵成目标配置方面取得成功。
总结来说,这篇论文研究了合成数据和模拟环境如何为具身AI提供有希望的解决方案。所展示工作的核心在于合成数据的精心生成和有效利用。通过模拟环境、生成模型、任务迁移学习、视觉运动策略训练和视觉动力学建模等策略,我们可以缩小模拟训练与真实世界应用之间的差距,为更有能力和多功能的具身AI代理铺平道路。