促使强化学习智能体持续探索环境的新方法：利用情景记忆激发好奇心

2018 年 10 月 25 日 论智

来源：Google AI Blog

编译：Bing

强化学习是机器学习领域最热门的研究技术之一，如果智能体做了正确的行为就能得到积极的奖励，反之则会得到负奖励。这种方法简单通用，DeepMind用这种方法教会DQN算法玩雅达利游戏以及让AlphaGoZero下围棋，甚至还让OpenAI训练算法来打Dota。但是，尽管强化学习很成功，想要高效地使用它仍然有很多挑战。

传统的强化学习算法常常因为环境对智能体稀疏的反馈而遇到重重困难，但这样的环境在现实中是很常见的。例如，你想在大型超市中找到最喜欢的那种奶酪，找了半天也没找到奶酪区。如果在这一过程中，你并没有收到任何反馈，那么就完全没有头绪该往哪走。在这种情况下，只有好奇心会驱使你试着走向别处。

现在，谷歌大脑团队、DeepMind和苏黎世联邦理工学院合作提出了一种新型的基于情景记忆的模型，能够让智能体用“好奇心”探索环境。研究人员不仅仅想让智能体了解环境，而且还想让它们解决最初的任务，他们在原始稀疏任务奖励中添加了一些反馈奖励，让标准的强化学习算法从中学习。所以这样加入了好奇心的方法能让强化学习智能体解决的问题更多。

以下是论智对这一方法的介绍：

这种方法的核心思想是将智能体所观察到的环境存储在情景记忆中，并且如果智能体获取了存储中没有的观察，也会对其进行奖励。我们的方法创新之处就在于，如何找到这种“没有被存储的”场景，这就是让智能体找到不熟悉的场景。这一目标就会让智能体走到一个新位置，直到找到目标。我们的方式不会让智能体做出无用的行为，通俗地讲，这些行为有点像“拖延症行为”。

此前的好奇心方法

在此之前，已经有多个有关好奇心的研究了，在这篇文章中，我们会重点关注一个很常见的方法：在预测过程中感到惊喜而产生的好奇心（通常称为ICM方法），这在最近的论文Curiosity-driven Exploration by Self-supervised Prediction中有过研究。为了解释好奇心是如何引起惊奇的，我们还会到上文中提到的在超市中找奶酪的例子。

当你在超市中搜索时，心里可能会想：现在我在肉类区域，所以接下来可能到水产品区。这些都应该是相近的。如果你预测错了，可能会惊讶：诶？怎么是蔬菜区？从而得到奖励。这就会激励你进一步寻找，直到找到目标。

同样的，ICM方法会针对环境变化搭建一个预测模型，如果模型没有做出好的预测，就会给智能体反馈，这也就是我们得到的“惊讶”。注意，探索一个陌生环境并不是ICM好奇心模块的直接组成部分，对ICM方法来说，观察不同的位置，就是为了获得更多“惊奇”之情，从而让总体奖励最大化。结果变成，在某些环境下，可能有其他的造成惊讶之情的路线，导致看到陌生的场景。

智能体遇到电视就被困住了

“拖延”的危险

在Large-Scale Study of Curiosity-Driven Learning一文中，ICM方法的作者和OpenAI的研究人员提出，当惊讶最大化后，会有隐藏的危险：智能体可以学习做一些无用的拖延动作，而不去为了完成任务而做些有用的事。作者举了一个“noisy TV problem”的例子，智能体被安排在一个迷宫里，它的任务是找到最高奖励的对象（和在超市里找奶酪的道理一样）。迷宫中有一台电视，而智能体有它的遥控器。但是电视只有几个台（每个台放的节目不一样），每按一下遥控器，电视就会随机切换频道。在这种情况下，智能体应该怎么做呢？

对于基于惊讶的好奇心方程来说，调换频道会导致较大的奖励，因为每次换台都是无法预测的，充满惊喜。重要的是，当所有频道轮换一遍之后，随机选择仍会让智能体感到惊奇，智能体仍然可能会预测错误。所以，智能体为了获得不断的惊喜、得到奖励，就会一直站在电视机前不走。所以为了避免这种情况，该如何重新定义好奇心呢？

情景式好奇心

在我们的论文中，我们研究了一个基于情景记忆的好奇心模型，结果发现模型并不容易让自己依赖即时满足。为什么会这样？利用上文电视机的例子，智能体换了一会儿台之后，所有的节目都已经被存储了。于是，电视机不再有吸引力了，即使电视机上的频道是随机出现的、无法预测的。这就和刚刚依靠惊奇的好奇心模型有了区别：我们的方法不对未来做判断，而是智能体检查自己此前是否观察到相似情景。所以，我们的智能体不会在这台电视机上浪费太多时间，它会继续寻找更多奖励。

但是我们如何确定智能体看到了和记忆里相同的事物呢？检查二者的匹配程度显然是不现实的，因为现实生活中，智能体很少能两次都看到相同的事物。例如，即使智能体回到了同一个房间，它看房间的视角也会和之前不同。

所以，我们在这里使用神经网络来确定，该网络在训练时会评估两次经历有几分相似。为了训练这一网络，我们让它判断两次观察的时间是否接近。时间接近性是判断两段经历是否是同一个场景的有效方法。这一训练就对“新鲜”进行了通用定义。

实验结果

为了比较研究好奇心的不同方法，我们在两个3D场景中对其进行了测试，分别是ViZDoom和DMLab。在这些环境中，智能体要完成多种任务，例如在迷宫中找目标或者收集好的目标，避开坏的物体。DMLab环境给智能体配置了类似激光的发射器，智能体可以选择性地使用。有趣的是，和上面的电视机实验类似，基于惊讶的ICM方法在很多不必要的情况下也使用了激光！当进行“迷宫寻宝”任务时，智能体一直对着墙做标记，因为这样会获得更高的奖励。理论上来说，通过标记墙壁预测结果是可行的，但实际上操作难度比较大，因为它需要很深的物理学知识，对智能体来说还做不到。