学界 | 你需要新的好奇心方法克服强化学习中的「拓展症」

2018 年 11 月 14 日 AI科技评论

AI 科技评论按：强化学习（RL）是当下机器学习最活跃的研究方向之一，其中智能体在做正确的事情时获得奖励，否则获得惩罚。这种「胡萝卜加大棒」的方法简单、通用，且能够帮助 DeepMind 教 DQN 算法玩经典的 Atari 游戏和 AlphaGo Zero 下围棋，同样 OpenAI 也利用 RL 教它的 OpenAI-Five 算法打电子游戏 Dota，Google 通过强化学习让机器人手臂去抓取物体。然而，尽管强化学习取得了一些成功，但要使其成为一种有效的技术仍存在许多挑战。

对智能体的反馈稀疏的环境使得标准 RL 算法使用起来举步维艰，至关重要的是，反馈稀疏这种情况在现实世界中很常见。举个例子，想象一下怎样在一个大型迷宫式超市中学习如何找到自己喜欢的奶酪。你找啊找，但奶酪区仍无处可寻。如果在每一步的行进中你都没有得到「胡萝卜」或「棒子」，那就无法判断你是否正朝着正确的方向前进。在没有奖励机制的情况下，什么阻止你在圈子里徘徊？除了你的好奇心机制外别无他法，好奇心会激励你进入一个看起来不熟悉的产品部分，来寻找你所追求的奶酪。

关于好奇心的文章， AI 科技评论此前也曾有过一些，比如关于迷宫里的智能体的《利用好奇心做稀疏反馈任务的学习》，以及论述好奇心概念本身的《好奇心驱动学习，让强化学习更简单》。此次谷歌也提出了一种新的好奇心的实现并撰写了介绍博客。全文编译如下。

好奇心的新实现方式

在论文《基于可及性实现情景式的好奇心》《Episodic Curiosity through Reachability》（https://arxiv.org/abs/1810.02274）中，谷歌大脑、DeepMind 和苏黎世联邦理工学院共同提出了一种新的基于情景记忆（episodic memory）的模型，它可以为强化学习提供奖励，类似于可以探索环境的好奇心机制。由于我们希望智能体不仅能够探索环境而且还要解决原始任务，因此我们将模型提供的奖励值添加到原始的稀疏任务奖励中。合并后的奖励不再稀疏，这使得标准强化算法可以从中学习。因此，谷歌的新的好奇心方法扩展了强化学习的适用范围。

基于可及性的情景好奇心：观察被添加到记忆中，奖励是根据当前的观察与记忆中最相似的观察的距离来计算的。由于获得了在记忆中还没有出现的观察结果，智能体将会获得更多的奖励。

谷歌方法的关键思想是将智能体对环境的观察结果存储在情景记忆中，同时对智能体得到记忆体中没有的观察结果也给予奖励。「记忆中没有」就是谷歌的这个方法中对新颖性的定义，寻求记忆中没有的观察结果意味着寻求不熟悉的东西。寻找陌生场景的这种动力使得人工智能体到达新的位置，从而防止它在圈内徘徊并最终帮它在偶然中发现目标。正如稍后将讨论的，这项的方法可以使智能体避免一些其他方法容易出现的不良行为 —— 令谷歌的研究人员们惊讶的是，这些不良行为在外行眼中很像是「拖延」。

先前的好奇心方法

尽管在过去[1] [2] [3] [4]工作中都有许多好奇心方法的尝试，但在这篇文章中谷歌更关注的是一种在近期文章《Curiosity-driven Exploration by Self-supervised Prediction》（https://pathak22.github.io/noreward-rl/）中探讨的非常流行的自然方法：基于预测惊讶的好奇心（通常称为 Intrinsic Curiosity Module，本征好奇心模块，ICM）。为了说明惊讶如何引起好奇，让我们回到「在超市寻找奶酪」的例子。

当你在整个市场漫步时，你试着预测未来（「现在我在肉类区，所以我认为拐角处的部分是生鲜区，因为在超市连锁店中这些区域通常相邻」）。如果你的预测是错误的，你会感到惊讶（「不，它实际上是蔬菜区。我没想到！」）因而得到回报。这使您接下来更有动力搜索角落，探索新的位置，看看您对它们的期望是否符合现实（并且希望偶遇奶酪）。

类似地，ICM 方法建立了动态的世界预测模型，并在模型未能做出良好预测时（如给出惊讶或新奇的标记时）给予智能体奖励。请注意，探索未知的位置并不属于 ICM 好奇心方式的一部分。对于 ICM 方法，访问它们只是获得更多「惊讶」的方式，从而最大化整体奖励。事实证明，在某些环境中可能存在其他方式造成惊讶，从而导致无法预料的结果。

基于惊讶的好奇心的智能体，遇到电视机之后呆住不动了

「拖延」的危险

在《Large-Scale Study of Curiosity-Driven Learning》[5]一文中，ICM 方法的作者和 OpenAI 的研究人员共同展示了一种最大化「惊讶」的隐藏危险：智能体可以学会放纵拖延的行为，而不是做一些对于完成手头任务有用的事情。为了追根溯源，我们来看一个常见的思维实验，作者称之为「噪声电视问题」（noisy TV problem）：一个智能体被置于一个迷宫中并负责找到一个非常有价值的物体（类似于我们之前的超市案例中的「奶酪」）的实验。环境还包含一个电视，频道数量有限（每个频道都有不同的节目），智能体拥有电视的遥控器，每次按下遥控器都会随机切换到任意频道，在这样的环境中，智能体表现如何呢？

对于基于惊讶的好奇心方法的表述，改变频道会产生巨大的回报，因为每次变化都是不可预测和令人惊讶的。重要的是，即使在所有可用频道循环播放之后，随机频道选择仍是令人惊讶的新变化，智能体正在预测频道改变后电视上会发生什么，很可能会出错，导致惊讶。重要的是，即使智能体已经看过每个频道的每个节目，这种变化仍然是不可预测的。因此，充满惊讶的好奇心的智能体最终将永远留在电视机前，而不是寻找一个非常有价值的节目，跟「拖延」一模一样。那么，怎样定义好奇心才不会导致这种行为呢？

情景好奇心

在论文《基于可及性实现情景式的好奇心》中，谷歌的研究人员们探究了一种基于记忆的情景好奇心模型，结果证明此模型不太容易使智能体产生「自我放纵」的即时满足感。原因何在呢？对于刚才一样的电视的例子，在切换频道一段时间后，所有节目将储存在记忆中。即使屏幕上出现的节目顺序是随机且不可预测的，所有这些节目已经在内存中，因此，电视将不再具有吸引力。与基于惊讶的好奇心方法的主要区别是，谷歌的方法甚至没有试图对可能很难（甚至不可能）预测的未来下注。相反，智能体会回顾过去，以了解它是否已经看到类似于当前情景的观察结果。因此，谷歌的智能体不会被电视节目提供的即时满足所吸引，它必须去探索已知节目之外场景才能获得更多奖励。

但是，要如何定义智能体看到的东西与记忆里的东西一致呢？完全匹配搜索可能毫无意义，因为在现实环境中，智能体很少看到两次完全一致的物体。例如，即使智能体返回到完全相同的房间，它仍然会从异于记忆的不同角度看到这个房间。

谷歌通过训练深度神经网络来测量智能体两个观察结果的相似程度，而不是通过对记忆的精确匹配搜索的方式。为了训练这个网络，谷歌猜测两个观察结果具有时间相关性，在时间上紧密相连，或者相距甚远。时间接近度是两个结果是否应该被判断为一致的良好特征。这种训练导致了一种基于可及性（reachability）的新颖的通用概念，如下图所示。

可及性图决定新颖性。在模型的实际运行中这样的图是无法绘制出来的，所以需要训练一个神经网络逼近器来估计观察结果之间的一些步骤。

实验结果

为了比较不同好奇心模型方法的性能，谷歌在两个视觉丰富的 3D 环境 —— ViZDoom 和 DMLab 中测试了它们。在那些环境里，智能体有很多不同的任务，比如在迷宫中寻找目标或者收集好的并避免坏的东西。

DMLab 环境刚好会给智能体提供一个类似激光发射器的科幻小工具。在之前的研究中，DMLab 的标准设置是在所有任务中为智能体装备这个工具；如果在某个特定任务中智能体不需要这个工具，它也可以不用。有趣的是，与之前描述的噪声 TV 实验类似，基于好奇心模型的 ICM 方法实际上在大多数任务中都使用了这个工具，即使它对手头的任务没有帮助！当任务是在迷宫中寻找高回报物品时，智能体似乎更喜欢花时间标记墙壁，因为这样会产生很多「好奇心」奖励。理论上来说，预测标记结果是可能的，但实际上却很难，因为这样做需要更多的物理知识，而现有的标准智能体还达不到这个标准。

基于惊讶的 ICM 智能体会不断给墙上打标记，而不是探索这个迷宫

而谷歌的新方法在相同的环境下就能学习到合理的探索行为。这是因为它没有试图预测其行为的结果，而是寻找那些从现有情景记忆中难以实现的观察。换句话说，智能体暗中追求那些需要更多努力才能从内存中获取而不仅仅是单个标记操作的目标。

谷歌新方法的智能体就展示出了合理的探索行为

有趣的是，谷歌给予奖励的方法会惩罚那些兜圈子的智能体。因为在完成第一圈后，智能体不会遇到除记忆中的观察结果之外的新观察，因此不会得到任何奖励：

智能体得到反馈的可视化演示：红色表示负反馈，绿色表示正反馈。从左到右三幅图依次表示：地图和反馈，地图和记忆中包含的位置，第一人称视角

谷歌的新方法就会带来不错的探索行为：

谷歌的研究人员们希望这项的工作将有助于引领新的探索方法浪潮，超越惊讶机制并学习到更智能的探索行为。有关这个方法的深入分析，请查看论文原文 https://arxiv.org/abs/1810.02274 。

参考文献

[1] "Count-Based Exploration with Neural Density Models", https://arxiv.org/abs/1703.01310 , Georg Ostrovski, Marc G. Bellemare, Aaron van den Oord, Remi Munos

[2] "#Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning", https://arxiv.org/abs/1611.04717, Haoran Tang, Rein Houthooft, Davis Foote, Adam Stooke, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

[3] "Unsupervised Learning of Goal Spaces for Intrinsically Motivated Goal Exploration", https://arxiv.org/abs/1803.00781, Alexandre Péré, Sébastien Forestier, Olivier Sigaud, Pierre-Yves Oudeyer

[4] "VIME: Variational Information Maximizing Exploration", https://arxiv.org/abs/1605.09674 , Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, Pieter Abbeel

[5]Large-Scale Study of Curiosity-Driven Learning, https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf , Yuri Burda, Harri Edwards, Deepak Pathak, Amos Storkey, Trevor Darrell, Alexei A. Efros

via ai.googleblog.com，AI 科技评论编译