机器人研究人员一直在尝试将计算机视觉和语言处理等领域的数据驱动突破扩展到机器人学习中。然而,与计算机视觉或语言领域不同,这些领域有大量数据可以从互联网上直接获取,训练机器人策略依赖于通过与物理世界交互所收集的物理和互动数据——这一过程资源密集,且受到劳动力限制。这种数据稀缺性长期以来一直是扩大机器人学习系统的主要瓶颈,限制了此前的努力只能在小规模和特定任务环境中进行。
在本论文中,我们提出了一种生成范式,通过解决现有的局限性,有可能推动通用机器人技术的发展。通过三条自成体系但又相互依赖的研究工作,我们旨在提出一个整合的、全面的范式:
我们提出构建全面的世界模拟器基础设施,用于建模物理世界,结合基于学习和基于规则的方法,创建一个虚拟但现实且强大的世界供机器人代理探索并发展其技能。
我们提出了生成模拟(Generative Simulation)这一生成框架,旨在更好地利用计算资源,自动化地扩大机器人数据生成规模,建立在我们构建的世界模型之上。传统的仿真策略训练长期以来受到设计任务、资产、环境、训练监督和评估指标等方面广泛人工干预的制约。我们设计了一种机器人代理,能够自动化执行从初始任务提案到策略训练的所有模拟机器人学习阶段,从而带来多样化的机器人演示。
我们提出了神经网络架构和学习方法,用于从收集的演示数据中提炼出统一的多模态机器人策略,完成从数据生成到有效策略训练的整个闭环。