基于自监督的可逆性强化学习方法

2021 年 12 月 3 日 AI前线

作者 | Johan Ferret

译者 | Sambodhi

策划 | 凌敏

强化学习是一种常用于机器人、芯片设计等一系列应用的智能体的训练方法。尽管强化学习擅长于发现如何从零开始解决任务，但是它可能很难训练智能体理解其动作的可逆性，这一点对确保智能体在其环境中以安全方式行动至关重要。举例来说，机器人通常非常昂贵而且需要维护，因此人们希望避免那些会导致部件损坏的动作。估算一种动作是否可逆（或者更好的是，它有多容易逆转），就需要理解智能体所处环境的物理学知识。但是，在标准的强化学习设置中，智能体并没有足够的环境模型来完成这一任务。

NeurIPS 2021 接收的论文《永无退路：基于自监督的可逆性强化学习方法》（There Is No Turning Back: A Self-Supervised Approach to Reversibility-Aware Reinforcement Learning）提出了在强化学习的背景下，近似于智能体动作的可逆性。这一新的切实可行的方法被称为可逆性感知强化学习，在自监督的强化学习程序中加入了单独的可逆性估算部分（也就是说，它从智能体收集的未标记的数据中学习）。可在线（与强化学习智能体联合）或离线（通过互动的数据集）进行训练。它的作用在于引导强化学习策略的可逆动作。这一方法改进了强化学习智能体在某些任务上的性能，包括具有挑战性的推箱子游戏。

可逆性感知强化学习

在强化学习程序中加入的可逆性成分是通过交互学习的，关键在于，这是一种可以独立于智能体本身进行训练的模型。模型训练是自监督的，不需要用动作的可逆性来标记数据。这个模型只从训练数据所提供的背景中，学习到哪些类型的动作容易被逆转。这类经验可逆性的理论解释是衡量一个事件 A 先于事件 B 的概率，因为我们知道 A 和 B 都会发生。优先级是真正可逆性的一个有用的智能体，因为即使没有奖励，它也能从互动的数据集中学习。

比方说，在一次实验中，一只玻璃杯从桌子的高度掉下来，当它落在地上时，就碎了。这时，玻璃杯从位置 A（桌子高度）到位置 B（地板），无论实验次数多少，A 始终先于 B，因此当随机抽样事件对时，发现 A 先于 B 的概率为 1。它表示不可逆的序列。我们可以把一个橡皮球扔下来，而不是玻璃杯。这时，橡皮球就会从 A 开始，落到 B，然后（大约）弹回到 A。这样，当抽样事件时，发现一对 A 先于 B 的概率只有 0.5（和随机对显示 B 先于 A 的概率相同），这将表示一个可逆的序列。

可逆性的估算取决于对世界动力学的认识。优先级就是可逆性的替代，它确定了当两个事件都被观察到时，哪一个事件平均先发生。

对优先级的估计包括对随机洗牌事件进行预测的时间顺序。

在强化学习中集成可逆性

在强化学习中，我们提出了两种集成可逆性的并行方法：

可逆性感知探索（Reversibility-Aware Exploration，RAE）：该方法通过修改奖励函数对不可逆转变进行惩罚。如果智能体选择一个被认为是不可逆的动作，那么它会得到一个与环境的奖励相对应的奖励减去一个正的、固定的惩罚，使这种动作不大可能发生，但并不排除这种动作。
可逆性感知控制（Reversibility-Aware Control，RAC）：在这里，所有不可逆的动作都被过滤掉，这个过程是策略环境之间的一个中间层。如果智能体选择了一个被认为是不可逆的动作，那么动作选择过程就会反复进行，直至选择一个可逆动作。

提出了 RAE（左）和 RAC（右）的可逆性感知强化学习方法。

RAE 与 RAC 的一个重要区别在于，RAE 只鼓励可逆动作，而不会不禁止它们，这意味着，当收益大于成本时，仍有可能执行不可逆动作（如下面的推箱子游戏的例子）。RAC 更适合于安全强化学习，因为它会导致不可逆的副作用导致的危险发生，而 RAE 更适合怀疑在大多数情况下需要避免不可逆动作的任务。

为阐明 RAE 和 RAC 的不同，我们对所提出的两种方法进行了性能评估。下面是一些示例场景：

防止（但不禁止）不可逆的副作用

最大限度地减少不可逆交互作用是安全强化学习的基本原则。为测试这一能力，我们引入了一种合成环境，在开放域中，一个智能体被分配到一个任务来达到目标。假如一个智能体沿着既定的路径前进，环境保持不变，但是如果它偏离了路径，进入了草地，走的路径就变成了褐色。尽管这样做会改变环境，但这种动作不会受到惩罚。

在这种情况下，一个典型的无模型智能体，例如近端政策优化（Proximal Policy Optimization，PPO）智能体，通常会遵循最短的路径，并且破坏部分草地，而 PPO+RAE 智能体能避免所有不可逆的副作用。

左上角：合成环境中，智能体（蓝色）的任务是达到一个目标（粉色）。灰色显示了从智能体到目标的路径，但是它不会沿着它们之间最直接的路线走。右上角：带有智能体动作的动作序列具有不可逆的副作用。随着智能体离开这个路径，将留下一条褐色的路径穿过该区域。左下角：一个 PPO 智能体的访问热图。智能体倾向于走一条比灰色更直接的路径。右下角：一个 PPO+RAE 智能体的访问热图。偏离路径的不可逆性促使智能体留在既定的灰色路径上。