【前沿】谷歌提出强化学习新算法SimPLe，模拟策略学习效率提高2倍

会员服务 ·

【前沿】谷歌提出强化学习新算法SimPLe，模拟策略学习效率提高2倍

2019 年 3 月 27 日 中国自动化学会

“

谷歌最近提出一种新的强化学习算法：模拟策略学习 (SimPLe) ，使用游戏模型来学习选择动作的策略，在两款Atari游戏中获得了最高分数，并且效率比以前的最先进方法高出2倍以上。

深度强化学习(RL)技术可用于从视觉输入中学习复杂任务的策略，并已成功地应用于经典的Atari 2600游戏。最近在这一领域的工作表明，即使在具有挑战性的探索体系中，例如《蒙特祖玛的复仇》游戏，AI也可以获得超越人类的表现。

然而，许多最先进的方法都有的一个限制是，它们需要与游戏环境进行大量的交互，通常比人类学习如何玩好游戏所需要的交互要多得多。

为什么人类能更有效地学习这些任务？一个可能的假设是，他们能够预测自己行为的影响，从而隐式地学习了一个关于哪些动作序列将导致理想结果的模型。

这种一般性的想法 —— 构建一个所谓的游戏模型，并使用它来学习选择行动的良好策略—— 是基于模型的强化学习(model-based reinforcement learning, MBRL) 的主要前提。

Google的研究人员最近提出一种新的MBRL算法——模拟策略学习 (Simulated Policy Learning, SimPLe) ，使用游戏模型来学习选择动作的质量策略。

SimPLe比当前最先进的技术更高效，并且仅使用了~100K 与游戏的交互即可显示出有竞争力的结果 (相当于一个人约2小时的实时玩游戏)。

研究人员在论文“Model-Based Reinforcement Learning for Atari”中描述了该算法，并已将代码作为tensor2tensor开源库的一部分开源。该版本包含一个预训练的世界模型，可以使用简单的命令行运行，并且可以使用类似于Atari的界面播放。

学习一个SimPLe世界模型

SimPLe背后的想法是在学习游戏行为的世界模型和在模拟游戏环境中使用该模型优化策略 (使用model-free强化学习) 之间进行交替。该算法的基本原理已经在Sutton的“Dyna, an integrated architecture for learning, planning, and reacting”中很好地建立起来，并且已经应用到许多最近的基于模型的强化学习方法中。

SimPLe的主循环。1) agent开始与真实环境交互。2) 收集的观测结果用于更新当前的世界模型。3) agent通过学习世界模型更新策略

为了训练一个玩Atari游戏的模型，我们首先需要在像素空间中生成合理的未来版本。换句话说，我们通过将一系列已经观察到的帧和给到游戏的命令 (如 “左”、“右” 等) 作为输入，来试图预测下一帧会是什么样子。在观察空间中训练一个世界模型的一个重要原因在于，它实际上是一种自我监督的形式，在我们的例子中，观察 (像素) 形成了一个密集且丰富的监督信号。

如果成功地训练了这样一个模型 (如一个视频预测器)，则基本上有了一个游戏环境的学习模拟器 (learned simulator)，可用于生成用来训练良好策略的轨迹，即选择一系列使智能体的长期奖励最大化的动作。

换句话说，我们不是在真实游戏的操作序列上训练策略，这在实践和计算上都非常密集，而是在来自世界模型 / 学习模拟器的序列之上训练策略。

我们的世界模型是一个前馈卷积网络，它接收4个帧，并预测下一帧以及奖励 (见上图)。然而，在Atari游戏的情况下，只考虑4帧的视界的话，未来是非确定性的。例如，游戏中的暂停时间就已经超过四帧，比如在《乒乓球》(Pong) 游戏中，当球掉出框时，可能会导致模型无法成功预测后续的帧。我们使用一种新的视频模型架构来处理诸如此类的随机性问题，在这种情况下能做得更好。

当SimPle模型应用于《成龙踢馆》(Kung Fu Master) 游戏时，可以看到一个由随机性引起的问题的例子。在动画中，左边是模型的输出，中间是groundtruth，右边是两者之间的像素差异。在这里，模型的预测由于产生了不同数量的对手而偏离了真实游戏

在每次迭代中，在训练好世界模型之后，我们使用这个learned simulator来生成用于使用近似策略优化 (PPO) 算法改进游戏策略的rollouts(即动作、观察和结果的样本序列)。

SimPLe工作的一个重要细节是，rollouts的采样是从实际数据集帧开始的。由于预测错误通常会随着时间的推移而增加，使长期预测变得非常困难，因此SimPLe只使用中等长度的rollouts。幸运的是，PPO算法也可以从其内部价值函数中学习动作和奖励之间的长期影响，因此有限长度的rollouts对于像《Freeway》这样奖励稀疏的游戏来说也是足够的。

SimPLe 的效率：比其他方法高2倍以上

衡量成功的一个标准是证明该模型是高效的。为此，我们在与环境进行了100K次交互之后，评估了我们的策略输出，这相当于一个人玩了大约两个小时的实时游戏。

我们将SimPLe方法与两种最先进的model-free RL方法：Rainbow和PPO，进行了比较。在大多数情况下，SimPLe方法的采样效率比其他方法高出两倍以上。