机器人研究人员一直试图将计算机视觉和语言处理等领域中的数据驱动突破扩展到机器人学习中。然而,与视觉或语言领域不同,这些领域可以从互联网上轻松获得大量数据,而机器人策略的训练依赖于通过与物理世界互动收集的物理和交互数据——这是一个资源密集的过程,且受限于劳动力限制。这种数据匮乏长期以来一直是扩展机器人学习系统的主要瓶颈,限制了此前工作只能在小规模和任务特定的设置中进行。在本论文中,我们提出了一种生成范式,旨在通过解决现有的局限性,潜在地推动通用机器人技术的发展。这个目标通过三个相互独立但又相互依赖的研究方向来实现,当它们整合时,形成一个连贯且全面的范式:
我们提出构建全面的世界模拟器基础设施,用于模拟物理世界,包括基于学习的和基于规则的模型,旨在为机器人代理创造一个虚拟而现实、强大的世界,供其探索并发展技能。
我们提出生成模拟(Generative Simulation),一个生成框架,用于自主扩展机器人数据生成,更好地利用计算资源,建立在我们构建的世界模型之上。传统的模拟训练策略长久以来受限于任务设计、资源、环境、训练监督和评估指标等方面的巨大人工投入。我们设计了一种自动化所有模拟机器人学习阶段的机器人代理——从初步任务提出到策略训练——从而实现多样化的机器人演示。
我们提出神经网络架构和学习方法,用于将收集到的演示数据提炼成统一的多模态机器人策略,完成从数据生成到有效策略训练的整个循环。
迄今为止,扩大机器人数据收集和策略学习的努力主要集中在两条路径上。第一条路径是收集人类提供的演示数据,通过运动教学或远程操作[22, 37, 46, 178],或利用视觉人类演示[254, 283, 320]。然而,这种方法在生成广泛分布的演示数据时遇到困难,并且由于依赖于人工劳动,本质上难以扩展。另一个有前景的方法是在仿真中训练机器人技能,仿真自然能够利用计算能力,理想情况下可以通过利用日益增长的计算能力轻松扩展。然而,在仿真中训练机器人技能也受到多个方面的问题的阻碍:仿真平台的效率和能力限制了机器人在仿真世界中进行的交互;此外,在启动实际技能训练之前,这一过程的多个阶段仍然需要大量的人力投入。 在本论文中,我们提出了一种综合方法,可能有助于解决机器人领域中的数据稀缺问题,并提出了一套方法,每个方法都针对完整流程的一个组成部分,完成从数据生成到策略训练的整个周期。我们的思路很简单:通过利用来自其他有用模态的最新基础模型和生成模型,我们提议自动生成构建训练环境和学习监督所需的所有静态和语义信息:从任务提案,到3D资源、交互环境、奖励函数等训练监督,再到已训练技能的闭环评估。之后,我们构建仿真环境和训练管道,并借助强化学习或轨迹优化自动训练机器人,从而为提议的任务生成所需的演示。这种范式,我们称之为生成模拟(Generative Simulation),需要在多个方面进行方法学改进:首先,我们需要设计一个稳健且自给自足的框架,能够自动执行整个流程;其次,训练广泛分布的技能需要仿真基础设施和物理引擎的内在支持;第三,我们需要设计统一且有效的策略架构,通过模仿学习将生成的演示提炼为策略。最终,本论文包含三个部分:
构建结构化和通用的世界模拟器:在这一部分,我们讨论了我们在构建高效且有效的仿真基础设施方面的努力,包括基于学习和基于规则的模型,以提供一个虚拟的基础,让机器人能够更好地利用计算资源探索和训练技能。
生成模拟:接着,我们详细讨论了扩展机器人学习的整个提议管道,通过生成模拟自动生成机器人演示数据。
策略架构:在最后一部分,我们设计了新型的神经网络架构,使机器人策略能够通过模仿生成的演示数据进行训练。我们提出的策略同时接收视觉观察和自然语言指令作为输入,并生成物理动作以完成指定任务。
人类能够轻松地想象自己在环境中采取行动后,周围环境将如何变化。我们拥有的这种动态模型使我们能够进行世界的心理模拟,并据此规划我们的行动。我们指出,这种心理模拟模型的两个重要方面对其泛化性至关重要:1)推理是在3D空间表示中进行的,不受视角变化和遮挡的影响;2)我们观察环境如何响应我们的行动,并基于新的观察快速适应这些模型以应对当前情境。受到这些启发,我们提出了两个重要改进,旨在学习一个更具泛化性的动态模型。首先,我们认为场景动态在3D中比在2D中更易学习和表示。在3D中,物体的外观和位置是解耦的。由于视角变化、遮挡或物体的平面外旋转,在投影的2D图像空间中无法通过移动物体来进行动态预测。此外,推断自由空间和物体碰撞在3D表示空间中是自然的。为此,我们在第二章提出了3D-OES,一种基于动作条件的动态模型,用于预测物体和智能体交互引起的场景变化,这些变化发生在一个不受视角影响的3D神经场景表示空间中,该空间由RGB-D视频推断得出。第二,我们认为机器人从与周围环境的互动中推断环境特性,并根据这些信息调整其动态模型是非常重要的。在第三章中,我们提出了HyperDynamics,一种动态元学习框架,基于对环境行为的观察,为特定情境生成专用的动态模型参数。基于学习的动态模型可能对基于模型的规划有所帮助,但为了生成其训练数据,我们仍然需要基于物理的仿真基础设施。物理仿真的进展已经成为推动动态模型学习和机器人技能训练的重要力量。然而,之前的许多机器人操作研究以及现有的大多数仿真平台仍主要考虑相对简单的刚性物体设置。近年来,研究可变形物体的兴趣逐渐上升。在本论文中,我们希望构建一个改进多个方面的仿真基础设施。首先,我们希望扩展到更复杂的环境设置,其中机器人需要与各种非刚性物体进行互动,从可变形物体到流体和颗粒材料。我们首先在第四章介绍了FluidEngine和FluidLab。前者是一个完全可微分的通用物理引擎,支持多种材料及其耦合,提供模拟复杂流体操作任务的能力。后者是围绕前者构建的一系列标准化评估任务,用于在流体操作的背景下评估各种方法。我们通过实验证明,当与我们完全可微分的仿真模型结合时,我们提出的优化方案能够很好地解决这些任务,在样本效率和最终性能方面超越了无梯度方法。接着,我们超越了这个特定领域的仿真引擎,并介绍了Genesis,这是一个大规模的合作项目,旨在为机器人研究人员构建一个通用、高性能、易于使用的仿真基础设施。Genesis将各种最先进的物理求解器集成到一个统一的框架中,设计了一个完全可微分的架构,并支持更先进的触觉传感模块和实时的 photorealistic 渲染系统。
通用机器人操控器需要学习在各种环境中执行多种操控技能。目前的机器人训练流程依赖人类提供运动教学演示或编程仿真环境并为强化学习编写奖励函数。这种人工参与是扩展机器人学习至多样任务和环境的瓶颈。在本论文的这一部分,我们提出了一个系统化的流程,利用多模态生成模型,并将其与强大的仿真基础设施相结合,以自动化整个机器人策略训练的流程。具体来说,我们的系统旨在使智能机器人代理具备自主提出有用技能的能力,并随后构建具有语义意义的环境和相关资源以填充这些环境。之后,代理利用大型语言模型(LLMs)编写奖励函数,然后用于技能训练。最后,代理启动在构建环境中的训练,并不断产生与提议任务设置相关的训练演示数据。具体来说,我们首先介绍了Gen2Sim(第六章),这是这一提议概念的初步验证。我们通过使用图像扩散模型将开放世界的2D物体中心图像提升为3D,并查询LLMs确定合理的物理参数,从而为仿真生成3D资源。给定生成的和人类开发的资产的URDF文件,我们通过链式思维提示LLMs将其映射到相关的任务描述、时间分解以及相应的Python奖励函数,用于强化学习。我们展示了Gen2Sim在学习长期任务的策略中取得了成功,在这些任务中,使用非时间分解奖励函数的强化学习方法失败。Gen2Sim为在仿真中扩展机器人操控器的强化学习提供了一条可行路径,既通过多样化和扩展任务与环境开发,又通过促进强化学习行为的发现,来实现任务的时间分解。我们的工作贡献了数百个模拟资产、任务和演示,迈出了朝着完全自主的机器人操控技能获取迈进的一步。然后,我们介绍了RoboGen(第七章),这是一个更为全面和独立的系统,扩展到了可变形物体操作,并改进了环境生成。RoboGen代理首先提出有趣的任务和技能进行开发,然后通过适当的空间配置生成仿真环境,并填充相关资产。接着,代理将提出的任务分解成子任务,选择最优的学习方法(强化学习、运动规划或轨迹优化),生成所需的训练监督,然后学习策略以获取提议的技能。RoboGen可以被反复查询,生成与多样任务和环境相关的技能演示数据。我们通过实验证明,RoboGen生成的任务和演示比以前人类设计的机器人数据集更加多样。
数据驱动的机器人策略学习需要合适的策略架构,带有适当的归纳偏置,以模仿收集的演示。在论文的最后部分,我们展示了一系列旨在构建高性能神经架构的工作,以支持多模态多任务的机器人策略。我们改进现有策略架构的洞见可以归结为两点。首先,我们认为3D感知表示非常适合机器人操控,因为它们能够轻松地编码遮挡并简化空间推理。许多操控任务需要高空间精度的末端执行器姿态预测,这通常需要高分辨率的3D特征网格,这对于处理来说是计算昂贵的。因此,大多数操控策略直接在2D中操作,放弃了3D的归纳偏置。在第八章中,我们介绍了Act3D,这是一种操控策略转换器,使用3D特征场表示机器人的工作空间,特征的分辨率会根据任务的不同而自适应。该模型利用传感深度将2D预训练特征提升到3D,并对这些特征进行关注,计算采样3D点的特征。它采用粗到细的方式采样3D点网格,使用相对位置注意力提取特征,并选择下一个采样的重点区域。通过这种方式,它高效地计算出高空间分辨率的3D动作图。在RLBench,一个公认的操控基准上,Act3D在74个RLBench任务上相较于先前的2D多视角策略提高了10%的绝对性能,在3D策略中,计算量减少了3倍并且提高了22%的绝对性能,创下了新的SOTA成绩。在接下来的章节中,我们介绍了ChainedDiffuser,一种进一步统一动作关键姿态预测和轨迹扩散生成的策略架构,用于从演示中学习机器人操控。其主要创新是使用全局动作预测器预测关键帧的动作,这一任务需要多模态语义场景理解,并使用局部轨迹扩散器预测连接预测宏动作的轨迹段。ChainedDiffuser优于使用运动规划器进行轨迹预测的现有SOTA关键姿态(宏动作)预测模型(包括Act3D),也优于不预测关键帧宏动作的轨迹扩散策略。我们在模拟和真实环境中进行了实验,展示了ChainedDiffuser在解决涉及多样物体互动的广泛操控任务中的能力。