只需1次演示，1小时在线训练，机器人真就做到看一遍就会了

2022 年 7 月 15 日 机器之心

机器之心报道

作者：陈萍、杜伟

本文提出的用于模仿学习的 ROT 算法，无需任何预训练，在 14 项任务中的平均成功率为 90.1%。

模仿学习（Imitation Learning, IL）具有悠久历史，可以分为两种广泛的范式，分别为 行为克隆（BC）和逆强化学习（IRL） 。BC 使用监督学习来获得一个策略，在演示中给定一个观察的情况下，该策略能够最大化采取演示行动的可能性。这虽然使得训练时不需要在线交互，但在线 rollout 期间存在分布不匹配的情况。

IRL 在通过在线环境 rollout 使用 RL 优化策略前，从演示轨迹中推断潜在的奖励函数。这使得策略即使在任务特定奖励缺失时也能稳健地解决演示任务。尽管很强大，但 IRL 方法存在一个重大的缺陷，它们需要大量的、成本高昂的在线环境交互。

在近日一项工作中，纽约大学的研究者提出了用于模仿学习的 ROT（Regularized Optimal Transport）算法，从概念上来讲，这是一种简单的新方法，ROT 与高维观测兼容，并且与标准 IRL 方法，所需额外超参数最少。

此外，为了解决 IRL 中关于奖励的非平稳性难题，ROT 采用 OT（Optimal Transport）进行奖励计算，这种方式使用非参数轨迹匹配函数。为了减轻智能体探索的挑战，该研究在专家演示中使用 BC 预训练 IRL 行为策略。这减少了模仿智能体从头开始探索的需求。

论文地址：https://arxiv.org/pdf/2206.15469.pdf

论文主页：https://rot-robot.github.io/

然而，即使使用基于 OT 的奖励计算和预训练策略，该研究也只能获得边际收益。基于先前工作的启发，该研究通过正则化 IRL 策略来稳定在线学习过程，以保持接近预训练 BC 策略。

为了实现这一点，研究者开发了一种新的自适应权重方案，称为 soft Q-filtering，它可以自动设置正则化，即优先考虑在训练开始时紧跟 BC 策略，并优先考虑随后的探索。与先前的策略正则化方案相比，soft Q-filtering 不需要手动指定衰减时间表。

为了证明 ROT 的有效性，研究者在 DM Control、OpenAI Robotics 和 Meta-world 的 20 个模拟任务上进行了大量实验，并在 xArm 上进行了 14 个机器人操作任务（见下图 1）。

我们先来看下 ROT 的效果，机器人将盒子里的物体倒入另一个盒子，没有漏撒的情况

机器人准确地将杯子扣在支架上。

机器人准确的挂衣架。

方法概览

模仿学习面临的一个挑战是：平衡模仿演示行为的能力，以及演示状态分布之外的状态恢复能力。BC 通过监督学习来模仿演示的动作，而 IRL 专门研究如何从任意状态中恢复策略。ROT 可以将两者优势结合起来。

完成上述过程分为以下两个阶段：

第一阶段，在专家演示数据上使用 BC 目标训练随机初始化策略，然后 BC 预训练策略用作第二阶段的初始化；
第二阶段，BC 预训练策略可以访问使用 IRL 目标进行训练的环境。为了加速 IRL 训练，BC 损失被添加到具有自适应权重目标中。

阶段 1：BC 预训练

BC 对应于求解方程 2 中的最大似然问题，其中 T^e 指的是专家演示。当由具有固定方差的正态分布参数化方程时，我们可以将目标定义为回归问题，其中给定输入 s^e，π^BC 需要输出 a^e。

经过训练，π^BC 能够模拟与演示中看到的对应动作。

阶段 2：使用 IRL 进行在线微调

给定一个预训练 π^BC 模型，在环境中对策略 π^b ≡ π^ROT 进行在线微调。研究者使用 n-step DDPG 方法，这是一种基于确定性 actor-critic 的方法，可在连续控制中提供高模型性能。

用正则化 π^BC 进行微调很容易受到分布偏移的影响，并且直接微调 π^BC 也会导致模型性能不佳（参见第 3 节中的图 2）。为了解决这个问题，研究者基于引导 RL（guided RL）和离线 RL 方法，通过将π^ROT 与 BC 损失相结合，将π^ROT 的训练规范化，如下方程 3 所示。

具有 Soft Q-filtering 的自适应正则化。虽然之前的工作使用经过手动调优的 λ(π) 时间表，但研究者提出了一种新的、无需调优的自适应方案。他们通过在从专家 replay 缓冲区 D_e 采样的一批数据中比较当前策略 π^ROT 和预训练策略 π^BC 的性能来完成。

实验结果

ROT 对于模仿学习的效率如何？ROT 在基于图像的模仿中的表现如下图 3 所示。在除一项任务之外的所有任务中，ROT 的训练速度明显快于之前的工作。

为了达到 90% 的专家性能，ROT 在 DeepMind Control 任务上平均快 8.7 倍，在 OpenAI Robotics 任务上快 2.1 倍，并在 Meta-world 任务上快 8.9 倍。该研究还发现，ROT 的改进在较难的任务上最为明显，位于图 3 的最右边一列。

ROT 在现实世界的任务中是如何执行的？研究者在 14 个真实世界的操作任务上进行评估。仅仅通过一次演示和一小时的在线训练，ROT 在 14 项任务中的平均成功率为 90.1%，这明显高于基于行为克隆 (36.1%) 和对抗性 IRL (14.6%) 的方法。

ROT 在不同的起始位置上都表现良好。

不过，ROT 也有失败的情况。

在 ROT 中 IRL 方法的选择有多重要？下图 6 将 ROT 与使用该研究中预训练和自适应 BC 正则化技术 (RDAC) 的对抗性 IRL 方法进行比较。结果发现，soft Q-filtering 方法确实改善了先前 SOTA 对抗 IRL（图 6 中的 RDAC 与 DAC）。然而，基于 OT 的方法 (ROT) 更稳定，并且平均而言会促进更有效的学习。