谷歌AI-强化学习中的好奇和拖延

【导读】强化学习是机器学习中最活跃的研究方向之一,其中代理在做正确的事情时获得积极的奖励,否则获得负面的奖励。这种胡萝卜加大棒的方法简单而通用,并使得DeepMind让DQN算法来玩古老的Atari游戏和AlphaGoZero来玩古老的Go游戏。这也是OpenAI如何使OpenAI-Five算法玩转现代视频游戏Dota,以及Google如何教机器人手臂来拿新物体的方法。然而,尽管强化学习取得了成功,但要使其成为一种有效的技术仍存在许多挑战。


作者|Nikolay Savinov

编译|专知

整理|Yingying,李大囧


由于代理的反馈稀疏,标准强化学习算法很难取得最佳效果 - 至关重要的是,这种情况在现实世界中很常见。举个例子,想象一下如何在一个大型的迷宫式超市中学习找奶酪。你四处走动但是如果你在每一步都没有收到“胡萝卜”而没有“坚持”,那就无法判断你是否正朝着正确的方向前进。在没有奖励的情况下,什么让你找到正确的方向,而停止徘徊?除了你的好奇心,这会激励你进入一个看起来不熟悉的产品部分,追求你所追求的奶酪。


我们提出了一种新的基于情景记忆的模型,它可以提供强化学习奖励,类似于好奇心,可以探索环境。我们希望代理不仅要探索环境而且要解决原始任务,我们将模型提供的奖励添加到原始的稀疏任务奖励中。合并后的奖励不再稀疏,因此可以使用标准强化学习算法学习。因此,我们的好奇心方法扩展了可用强化学习解决的任务集。


我们方法的关键思想是将代理人对环境的观察结果存储在情景记忆中,在代理人达到尚未在记忆中表示的观察结果时,给予奖励。 “去不在记忆里的地方”是我们方法中新颖性的定义 - 寻求这种观察意味着寻求不熟悉的东西。寻求陌生的地方这种驱动将代理带到不同的地方,从而防止它在圈内徘徊并最终帮助它达到目标。令我们惊讶的是,这些行为与外行人称之为“拖延”的行为有些相似。


过去的解决方法

尽管在过去有许多尝试来形成好奇心的方法,但在这篇文章中我们关注的是一种自然且非常流行的方法:基于预测惊喜的好奇心(在论文“Curious-driven Exploration by Self-supervised Prediction”中具体介绍,一般被称为ICM方法)为了说明惊喜如何引起好奇心,我们还是以在超市找奶酪打比方。


当你在整个市场漫步时,你试着预测未来(“现在我在肉类部分,所以我认为拐角处的部分是鱼段 - 这些通常在这个超市连锁店中相邻”)。如果你的预测是错误的,你会感到惊讶(“不,它实际上是蔬菜部分。我没想到!”)因而得到回报。这使您更有动力在未来瞄准角落,探索新的位置,看看您对它们的期望是否符合现实(并且,希望,偶然发现奶酪)。


类似地,ICM方法建立了世界动态的预测模型,并在模型未能做出良好预测时给予代理奖励 - 这是惊喜或新奇的标志。请注意,探索未访问的位置并不直接是ICM产生好奇心的方法。对于ICM方法,访问未知位置只是获得更多“惊喜”的方式,从而最大化整体奖励。事实证明,在某些环境中可能存在其他方式造成自我惊讶,从而导致无法预料的结果。



“拖延”的危险

在“好奇心驱动学习的大规模研究”中,ICM方法的作者和OpenAI的研究人员显示出惊人最大化的隐藏危险:代理可以学会放纵拖延行为,而不是做任何有用的事情来完成任务。为了了解原因,请考虑一个共同的思想实验,作者称之为“嘈杂的电视问题”,其中一个代理人被置于一个迷宫中并负责寻找一个非常有价值的项目(类似于我们之前的超市示例中的“奶酪”)。环境还包含电视,而代理有遥控器。频道数量有限(每个都有不同的节目),遥控器上的每次按下都会切换到随机频道。代理在这样的环境中会怎么做?


对于基于惊喜的好奇心的表述,改变频道会产生巨大的回报,因为每次变化都是不可预测和令人惊讶的。至关重要的是,即使在所有可用频道中循环播放之后,随机频道选择也会确保每一个新变化仍然令人惊讶 - 代理人正在预测频道改变后电视上会发生什么,很可能会出错,导致惊喜。重要的是,即使代理已经看过每个频道的每个节目,按下遥控器按钮之后的变化仍然是不可预测的。因此,充满惊喜的好奇心的代理人最终将永远留在电视机前,而不是寻找一个非常有价值的项目 - 类似于拖延。那么,好奇心的定义是什么,不会导致这种行为呢?


情节好奇心

在“通过可达性的情节好奇心”中,我们探索了一种基于记忆的情境好奇心模型,结果证明不太容易“自我放纵”的即时满足感。为什么这样?使用上面的示例,在更改频道一段时间后,所有节目将最终在 记忆中。因此,电视将不再具有吸引力:即使屏幕上出现的节目顺序是随机且不可预测的,所有这些节目已经在记忆中!这是基于惊喜的方法的主要区别:我们的方法甚至没有试图对可能很难(甚至不可能)预测的未来下注。相反,代理会检查过去,以了解它是否已经看到类似于当前的观察结果。因此,我们的代理人不会被嘈杂的电视提供的即时满足所吸引。它必须去电视之外探索世界才能获得更多奖励。


但是,我们如何判断代理是否看到与现有内存相同的东西?检查完全匹配可能毫无意义:在现实环境中,代理很少看到两次完全相同的事情。例如,即使代理返回到完全相同的房间,它仍然会在与其记忆相比的不同角度看到这个房间。


我们使用深度神经网络来训练测量两种体验的相似程度,而不是检查记忆中的精确匹配。为了训练这个网络,我们猜测是否有两个观察结果在时间上紧密相连,或者在时间上相距很远。时间接近度是两个体验是否应该被判断为同一体验的一部分的良好代表。该训练通过可达性导致新颖性的一般概念,如下所示。


实验结果

为了比较不同方法的表现,我们在两个视觉丰富的3D环境中进行了测试:ViZDoom和DMLab。在这些环境中,代理的任务是处理各种问题,例如在迷宫中搜索目标或收集好的内容以及避免坏对象。 DMLab环境恰好为代理提供了类似激光的科幻小说小工具。DMLab的工作中的标准设置是为代理配备所有任务的小工具,如果代理不需要特定任务的小工具,则可以免费使用它。有趣的是,类似于上面描述的嘈杂的电视实验,基于惊喜的ICM方法实际上使用了这个小工具,即使它对于手头的任务是无用的!当负责在迷宫中搜索高回报的物品时,它更喜欢花时间标记墙壁,因为这会产生很多“惊喜”奖励。从理论上讲,标记的结果是可以被预测的,但实际上太难了,因为它显然需要比标准代理可用的更深入的物理知识。


我们的方法在相同的条件下学习合理的探索行为。 这是因为它没有试图预测其行为的结果,而是寻求从已经在情景记忆中的那些“更难”实现的观察。 换句话说,代理隐含地追求目标,这些目标需要更多努力才能从记忆中获取而不仅仅是单个标记操作。



有趣的是,我们给予奖励的方法会惩罚在圈子中运行的代理人。 这是因为在完成第一个圆后,代理不会遇到除记忆中的观察之外的新观察,因此不会得到任何奖励:


同时,我们的方法有利于良好的探索行为:


我们希望我们的工作将有助于引领新的探索方法浪潮,超越惊喜并学习更智能的探索行为。


论文链接:

https://arxiv.org/abs/1810.02274


原文链接:

https://ai.googleblog.com/2018/10/curiosity-and-procrastination-in.html


-END-

专 · 知


人工智能领域26个主题知识资料全集获取加入专知人工智能服务群: 欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!



请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!


请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

AI 项目技术 & 商务合作:bd@zhuanzhi.ai, 或扫描上面二维码联系!


请关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知


展开全文
Top
微信扫码咨询专知VIP会员