在过去的十年里,深度学习展示了卓越的能力,展现了对大规模数据的强烈依赖。这一时期见证了大型语言模型、扩散模型和分割模型的规模化法则生效,通过利用大规模真实世界数据集,实现了接近人类水平的性能。然而,当涉及到具身人工智能时,生成真实世界数据变得具有挑战性且成本高昂,原因在于机器人的脆弱性和有限的速度。相比之下,合成数据和模拟环境提供了一种高效且成本效益高的方法,用于训练机器人代理并生成精确的监督。因此,合成数据作为可扩展和高质量训练数据的有希望的解决方案,为具身人工智能代理的出现提供了支持。鉴于使代理能够泛化到真实世界场景的最终目标,围绕合成数据的主要挑战在于准确捕捉真实世界分布,通过弥合模拟与现实差距(Sim2Real gap)。解决这一挑战涉及两个关键方面:生成合成数据和有效利用它。在这篇论文中,我提出了两条研究工作线,分别对这两个方面做出贡献。第一条研究工作线解决合成数据的生成。我介绍了两种旨在生成与真实世界分布一致的合成数据的方法。首先,我提出了iGibson,一个模拟环境,用于在大规模真实场景中开发交互式任务的机器人解决方案。iGibson构建了与3D扫描的真实世界家庭互动复制的模拟场景,使对象、布局和互动性的分布与真实世界一致。为了进一步促进更健壮的具身代理的训练,iGibson为材料(包括视觉外观和动力学特性)和物体形状提供了领域随机化程序,同时尊重物体放置的分布并保持互动性。其次,我提出了GINA-3D,一种生成模型,使用来自相机和激光雷达传感器的真实世界驾驶数据来创建多样化车辆和行人的逼真3D隐式神经资产。与iGibson相比,后者涉及在构建模拟环境方面的显著人力努力,GINA-3D利用了直接学习生成与真实世界观测匹配的合成资产的生成模型。我提出的证据表明,GINA-3D在生成的视觉和几何质量方面实现了最先进的性能和多样性。第二条研究工作线集中于有效利用合成数据。通过设计健壮的学习算法和模型,我们可以创建更好地泛化到真实世界场景的模型。首先,我介绍了Taskonomy,它利用合成数据构建了一个计算任务分类和任务空间地图。通过利用任务关系,我展示了证据表明,我们可以使用比完全监督方法少至少一个数量级的数据,而且模型可以很好地泛化到真实世界数据集。然后,我介绍了情境融合,它训练代理融合一大组对应于多样化视觉感知能力的视觉表征。这种方法在新环境中的表现显著优于真实世界预训练的基线和其他融合方法。最后,我介绍了ACID,用于可变形物体操纵的动作条件隐式视觉动力学。通过利用大规模合成数据和几何与动力学的独特监督,我可以将模拟训练的ACID模型直接应用于真实世界物体,并在将它们操纵到目标配置方面取得成功。总结来说,这篇论文研究了合成数据和模拟环境作为具身人工智能的有希望解决方案。所呈现作品的关键在于合成数据的仔细生成和有效利用。通过模拟环境、生成模型、任务迁移学习、视觉运动策略训练和视觉动力学建模等策略,我们可以弥合模拟训练和真实世界应用之间的差距,为更有能力和多功能的具身人工智能代理铺平道路。