ROBEL：低成本机器人训练平台

2019 年 12 月 23 日 TensorFlow

文 / Michael Ahn 软件工程师和 Vikash Kumar 研究员

Google 机器人团队

近年来，大量模拟基准（如 dm_control 或 OpenAI-Gym）纷纷涌现，同时兼具灵活性和可扩展性的强化学习技术（DDPG、QT-Opt 或 Soft Actor-Critic）也发展迅速。在二者的推动下，基于学习解决机器人控制问题的方法近期有了显著进展。虽然在模拟学习时很有效，但由于物理建模不准确或系统延迟等因素，当模拟环境部署到真实机器人时常会遇到困难。为此，我们应直接在现实中针对现实世界的物理硬件开发机器人控制解决方案。

大多数针对硬件的机器人研究目前都集中在工业级质量的高成本机器人（ PR2、Kuka-arms、ShadowHand、Baxter 等），目的是在受控环境中执行受监控的精准操作：机器人均根据传统控制方法而设计，注重精度、复用性，且易于显示表征。这与基于学习的控制方法形成了鲜明对比（后者对不完善的感知和动作具有稳定性），并且需要：

高适应力力，以实现在现实环境中进行试错学习；
低成本且易于维护，以通过复制实现可扩展性；
可靠的重置机制，以降低严格的人工监控要求。

在 CoRL 2019 的 “ROBEL:Robotics Benchmarks for Learning with Low-Cost Robots” 中，我们推出了开源的低成本机器人基准测试平台，旨在促进现实环境中物理硬件的研究和开发。

与光学领域的光学平台类似，ROBEL 是一种快速实验平台，支持通过大量实验开发新的强化学习及控制方法。ROBEL 由 D'Claw 和 D'Kitty 构成，D'Claw 是一个有三根手指的手形机器人，可辅助学习灵巧的操作任务；而 D'Kitty 是一个有四条腿的机器人，可辅助学习灵活的腿部运动任务。这种模块化的低成本机器人平台既易于维护，也足够稳定，并且可以支持从零开始的硬件强化学习。

左：12 自由度 (DoF) 的 D’Kitty；中：9 自由度 (DoF) 的 D’Claw；右：D'Claw 安装台 D’Lantern

为实现机器人低成本和易于安装，我们基于现成组件和常见的原型设计工具（3D 打印或激光切割）设计出 ROBEL。该设计易于组装，只需几个小时便可安装完毕。文末获取 快速入门 的详细部件清单（附 CAD 详情）、安装说明和软件说明。

ROBEL 基准

我们设计了一套适用于D’Claw 和 D’Kitty 两个平台的一套任务，可用于对现实世界的机器人学习进行基准测试。ROBEL 的任务定义包括密集和稀疏任务目标，并在任务定义中引入硬件安全指标，例如，显示关节的指标是否超过“安全”操作界限或作用力阈值。ROBEL 还为所有任务提供模拟器，以助力算法开发和快速原型设计。D’Claw 的任务主要围绕三种常见的操作行为：摆形 (Pose)、转动 (Turn) 和拧动 (Screw)。

左：摆形 — 摆出符合环境的形状; 中：转动 — 将目标转动到指定角度; 右：拧动 — 持续旋转目标

D’Kitty 的任务主要围绕三种常见的移动行为 — 站立、定向和行走。

左：站立 — 直立; 中：定向 — 使运动方向与目标方向保持一致; 右：行走 — 移动到目标点

针对以上每一种基准任务，我们评估了几类深度强化学习方法（on-policy、off policy、demo-accelerated、supervised）。我们将评估结果和最终策略作为基准加入软件包，以供您进行比较。如需了解完整的任务细节和基线性能，文末查看技术报告。

可复现性和稳健性

ROBEL 平台功能强大且已经非常成熟，支持直接的硬件训练，并于一年来已积累超过 14,000 个小时的实际使用经验。由于采用模块化设计，该平台的维护十分简单，几乎不需要专业知识。

为了确保平台与基准的可复现性，两个不同的研究实验室分别对 ROBEL 进行了研究。此次研究中仅使用软件分发和文档记录，不允许直接访问。使用 ROBEL 的设计文件和组装说明，两个实验室均能复现出这两个硬件平台。

此外，两个实验室还在构建的机器人进行基准任务训练。下图所示为两处不同地点打造的两个 D'Claw 机器人，二者不仅训练进度相似，而且最终收敛到相同性能，这说明 ROBEL 基准具备良好的可复现性。

不同实验室开发的两个真实 D'Claw 机器人，执行任务的 SAC 训练性能

结果展示

迄今为止，ROBEL 在各种强化学习研究中都能发挥作用。下面我们重点介绍一些关键结果，全部结果请参阅综合库。D’Claw 平台完全自主，可以在长时间内维持实验的可靠性，并且可使用刚性目标和柔性目标，通过各种强化学习范例和任务改进实验。

左图：高灵活度目标 — 使用 DAPG 的硬件训练可有效学习如何对灵活的物体进行旋转。我们观察到，机器人会对刚性更高的阀门中心部分进行操作。D'Claw 对硬件训练具有较高的稳健性，有助于提升对难模拟任务的成功率; 中间：抗干扰 — 通过自然策略梯度在 MuJoCo 模拟中训练 Sim2Real 策略，并在硬件上测试对象扰动（及其他扰动）。我们观察到，机械手指会合力工作以抵抗外部干扰; 右图：去掉一根手指 — 通过自然策略梯度在 MuJoCo 模拟中训练 Sim2Real 策略，并在硬件上测试外部扰动（及其他扰动）。我们观察到，机器人用自由的手指填补了缺失手指的位置

重要的是，D'Claw 是模块化平台，而且易于复制，有助于进行扩展实验。通过扩展设置，我们发现多个 D'Claw 可通过共享经验更快地对任务进行集体学习。

使用 SAC 学习的分布式版本进行硬件训练，并通过共享经验将多个目标转动至任意角度。得益于多任务机制，只需单个任务的两倍经验便可完成五个任务。视频中，五个 D'Claw 机器人将不同物体转动 180 度（这是为了呈现视觉效果，实际策略可实现任意角度的转动）。

我们还在 D’Kitty 平台上成功部署了稳健的移动策略。下图为在室内和室外地形上“失明”状态下行走的 D'Kitty，在“失明”这一干扰条件下展现出步态的稳健性。

左：室内 – 在杂乱环境中行走 — 通过自然策略梯度在 MuJoCo 模拟中使用随机干扰训练 Sim2Real 策略，学习在杂乱环境中行走和跨越物体; 中：室外 – 碎石和树枝 — 通过自然策略梯度在 MuJoCo 模拟中使用随机高度区域训练 Sim2Real 策略，学习在室外的碎石和树枝中行走; 右：室外 – 斜坡和草地 — 通过自然策略梯度在 MuJoCo 模拟中使用随机高度区域训练 Sim2Real 策略，学习在缓坡上行走

当在场景中获得物体及其躯干的相关信息时，D’Kitty 便可学习与这些展现出复杂行为的物体进行交互。

左：躲避移动的障碍物 — 通过 Hierarchical Sim2Real 训练策略，学习躲避移动的障碍物，并到达目的地（地板上标记的参考物)；中：向移动的目标推动障碍物 — 通过 Hierarchical Sim2Real 训练策略，学习向移动的目标推动障碍物（由手中的控制器标记)；右：协同操作 — 通过 Hierarchical Sim2Real 训练策略，学习两个 D'Kitty 机器人协同工作将沉重的障碍物推向目的地（地板上两个 + 号处）

总之，ROBEL 平台成本低廉、性能强大、可靠性高，可满足基于学习的新兴需求，为其提供所需的可扩展和适应力。我们很高兴将 ROBEL 发布到开源社区中，期待该平台可以推动多样化的研究和实验。如需查看 ROBEL 平台和 ROBEL 基准的入门指南，请访问 roboticsbenchmarks.org。

致谢

Google 的 ROBEL D'Claw 由 Vikash Kumar 在华盛顿大学和加州大学伯克利分校开发的早期设计演变而来。各个组织中的许多人员都为 ROBEL 项目做出了贡献。感谢共同作者 Henry Zhu（加州大学伯克利分校）、Kristian Hartikainen（加州大学伯克利分校）、Abhishek Gupta（加州大学伯克利分校）和 Sergey Levine（Google 及加州大学伯克利分校）在项目过程中做出的贡献和大量反馈。感谢 Matt Neiss (Google) 和 Chad Richards (Google) 在平台设计方面做出的重大贡献。此外，感谢 Aravind Rajeshwaran（华盛顿大学）、Emo Todorov（华盛顿大学）和 Vincent Vanhoucke (Google) 在项目过程中开展有益讨论并提供实用建议。

如果您想详细了解 本文提及 的相关内容，请参阅以下文档。这些文档深入探讨了这篇文章中提及的许多主题：

dm_control
https://github.com/deepmind/dm_control
OpenAI-Gym
https://gym.openai.com/
DDPG
https://arxiv.org/abs/1509.02971
QT-Opt
https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html
Soft Actor-Critic
https://ai.googleblog.com/2019/01/soft-actor-critic-deep-reinforcement.html
PR2
http://rll.berkeley.edu/gps/
Kuka-arms
https://ai.googleblog.com/2018/06/scalable-deep-reinforcement-learning.html
ShadowHand
https://openai.com/blog/learning-dexterity/
Baxte
https://arxiv.org/abs/1509.06825
CoRL 2019
https://www.robot-learning.org/
ROBEL:Robotics Benchmarks for Learning with Low-Cost Robots
https://arxiv.org/abs/1909.11639
D'Claw
http://roboticsbenchmarks.org/platforms/dclaw
D'Kitty
http://roboticsbenchmarks.org/platforms/dkitty
D’Lantern
http://roboticsbenchmarks.org/platforms/dclaw#h.p_9GUMNnuj9p7d
快速入门
http://roboticsbenchmarks.org/getting-started
技术报告
http://arxiv.org/abs/1909.11639
SAC
https://arxiv.org/abs/1812.05905
综合库
http://roboticsbenchmarks.org/papers
DAPG
https://sites.google.com/view/deeprl-dexterous-manipulation
硬件训练
https://sites.google.com/view/deeprl-handmanipulation
自然策略梯度
https://papers.nips.cc/paper/2073-a-natural-policy-gradient.pdf
MuJoCo
http://mujoco.org/
Hierarchical Sim2Real
https://sites.google.com/view/manipulation-via-locomotion