如何构建通用机器人系统? 观察视觉和语言等领域,其共同主题是通过大规模、精心策划的数据集进行端到端学习。然而,在机器人技术中,仅靠规模可能不足以应对机器人任务的多模态性、缺乏易于获取的数据以及在物理硬件上部署的安全性和可靠性挑战。与此同时,当今一些最成功的机器人系统本质上是模块化的,能够利用每个模块的独立泛化能力来表现优异。受这些特性的启发,本论文旨在通过将这些组件整合为一个整体来解决构建通用机器人代理的任务:将模块化与大规模学习相结合,以实现通用机器人控制。我们首先独立探讨这两个方面。第一个问题是:如何在学习系统中构建模块化和层次结构? 我们的关键见解是,与其让代理端到端地学习层次结构和低级控制,不如通过规划显式地强制模块化,从而实现更高效、能力更强的机器人学习。接下来,我们探讨规模在构建通用机器人系统中的作用。为了有效扩展,神经网络需要大量多样化数据、适应数据的表达性架构以及生成数据的监督来源。为此,我们利用一种强大的监督来源:经典规划算法,这些算法可以广泛泛化,但运行成本高,并且需要访问完美的特权信息才能在实践中表现良好。我们使用这些规划算法在模拟中监督大规模策略学习,以生成通用代理。最后,我们考虑如何将模块化与大规模策略学习统一起来,以构建能够执行零样本长期操作的自主现实世界机器人系统。我们提出通过紧密集成模块化高层和中层规划、学习的局部控制、程序化场景生成以及用于模拟到现实迁移的大规模策略学习的关键要素来实现这一目标。我们证明,这种方法可以产生强大的结果:一个单一的通用代理可以仅通过文本指令解决现实世界中具有挑战性的长期操作任务。https://arxiv.org/abs/2503.06814