学界 | Science介绍新型好奇心算法：基于强化学习摸索世界

2017 年 6 月 2 日 机器之心

选自Science

作者：Matthew Hutson

机器之心编译

参与：吴攀、李亚洲

好奇心一直被一些科学家认为是智能的基本属性之一，为机器赋予好奇心自然也是计算机科学家的重要研究目标，比如《学界 | 让好奇心驱动人工智能：UC Berkeley 提出自监督预测算法》。最新一期《Artificial Intelligence》期刊的一篇论文试图通过强化学习来让机器具备一定的好奇心。研究者 Todd Hester 和 Peter Stone 在本论文中提出了一种内在激励的基于模型的强化学习算法 TEXPLORE-VANIR，可以让模型自己进行摸索式（exploration）的学习。Science 昨天发布了一篇文章对这项研究进行了介绍，机器之心对本文及原论文摘要进行了编译介绍。

在人工智能的曲折发展中，计算机科学家一直在编程有好奇心的机器——来自己摸索周边的环境从而进行学习。这种新的方法能够让机器人更快地学习，某天甚至能够在构建假说、推动前沿发展方面超越人类科学家。

布朗大学 Intelligent Robot Lab 的一位计算机科学家 George Konidaris 说：「开发好奇心是智能的核心难题。在未来当你不知道机器人该做什么时，这会非常有帮助。」

过去几年，科学家一直在研究好奇心方面的算法，但却难以复制人类的好奇。例如，大部分方法不能够评估人工智能体的知识掌握从而预测什么是有趣的（在智能体看到事物之前），而人类有时看到书的封面就能判断书是否有趣。

目前在谷歌 DeepMind 工作的计算机科学家 Todd Hester 希望能做得更好。他说：「我正在寻找让计算机更智能地进行学习的方法，就像人类一样进行摸索。但不是摸索所有事、随机进行摸索，而是有小聪明的尝试摸索。」

所以 Hester 和德州大学奥斯汀分校的 Peter Stone 开发了一种新算法 Targeted Exploration with Variance-And-Novelty-Intrinsic-Rewards（TEXPLORE-VANIR），这是一种依赖强化学习的技术。

在强化学习中，智能体会尝试一些事，如果该行为更接近最终目标，例如走出迷宫，它就能获得小奖励，从而在未来再次尝试这种行为。DeepMind 曾使用强化学习让程序掌握 Atari 游戏和围棋。但和其他好奇算法一样，TEXPLOE-VANIR 算法也设置了一个内在目标（internalgoal），让程序奖励自我从而理解新的东西，即使学到的知识并不能让它更接近最终目标。

在 TEXPLORE-VANIR 学习和建立世界模型的时候，它会为发现之前从未见过的信息来奖励自己。例如，发现地图上的一个点，或者在厨房应用中发现不同寻常的菜谱。而且，它也会减少不确定性而奖励自己，例如对某个地方或菜谱更为熟悉。

Konidaris 说：「它们是完全不同类型的学习和摸索，在之间进行权衡非常重要，我很喜欢这篇论文把两者都做了。」

Hester 和 Stone 在两个场景中进行了测试。第一个场景是虚拟迷宫，四个有门的房间组成的迷宫。该机器人（也就是一个计算机程序）需要找到钥匙，使用它开门。每次通过一个房间它就会获得 10 分，3000 步之内获得高分。如果研究人员使用 TEXPLORE-VANIR 算法指导机器人摸索 1000 步，它平均获得 54 分。但如果机器人使用其他算法进行这摸索，测试阶段的得分从 0 到 35 不等。但它使用一种名为 R-MAX 算法时，也获得了 55 分。在另一个不同设定中，机器人需要同时摸索、穿过大门，TEXPLORE-VANIR 获得了大约 70 分，R-MAX 获得了 35 分，其他得分约为 5。该研究成果发表在 6 月的《Artificial Intelligence》期刊上。

然后这两位研究者在一个实体机器人（名叫 Nao 的人形玩具）上尝试了该算法。在三个不同的任务中，这个半米高的机器人需要击打一个钹、或用它的手将粉红色带子举到它的眼前、或按下其脚上的一个按钮，从而获得得分。对于其中每一个任务，它都有 200 个步骤可以得分，但在之前它有 400 个摸索步骤——要么是随机摸索，要么使用 TEXPLORE-VANIR。在使用这两种方法进行了 13 次试验之后，使用 TEXPLORE-VANIR 进行摸索的 Nao 比随机摸索的 Nao 能更好地找到其手上的粉红色带子。使用 TEXPLORE-VANIR 后，Nao 在 13 次试验中有 7 次按到了按钮；而在随机摸索后，它一次也没有按到。在击打钹方面，使用 TEXPLORE-VANIR 摸索后在 5 次试验中击中了 1 次，而随机摸索后从未击中。通过它自己的身体与环境的半结构化实验，TEXPLORE-VANIR 为其分配的任务做好了准备，就像婴儿在学会爬行之前舞动自己的四肢一样。

但「好奇心会害死机器人」，至少会影响到它的生产力。如果其用于学习的内在奖励太大，那么它可能会忽略外部奖励。马萨诸塞大学计算机科学家 Andrew Barto 如是说，他是强化学习领域的标准教科书《Reinforcement Learning》的作者之一，而且也是 Stone 所创立的一家公司的无偿顾问。实际上，当同时被添加到给门开锁任务上时，R-Max 的得分会更低，因为它会因自己的好奇心而分心，就像某种人工智能多动症。另一方面，外部奖励可能会干扰学习，Barto 说：「如果你提供成绩或星星评级，那学生可能会为这些目标努力，而不再为他或她自己的满意。」所以在训练机器人上的突出难题是找到内在奖励和外部奖励的适当平衡。

在做家务、设计高效的制造流程或探索治病药物时，智能的好奇的 bot 或机器人可能会有灵活的表现。Hester 说下一步是使用神经网络（建模于大脑结构的算法）来更好地识别需要探索的全新区域，这也将顺便推进他自己追求的目标：「我们可以打造一个能像孩子一样学习的智能体吗？」

论文：用于开发好奇机器人的内在激励的模型学习（Intrinsically motivated model learning for developing curious robots）

论文地址：https://doi.org/10.1016/j.artint.2015.05.002

摘要：强化学习（RL）智能体通常被用来基于一个预定义的奖励函数学习一个特定的具体任务。但是，在一些案例中，智能体也许可以在被给出任务之前就获得关于这一域（domain）的经验。在这样的案例中，内在动机（intrinsic motivation）可被用于使该智能体能学习一个有关环境的有用模型，该模型很可能可以帮助其更有效地学习其最终的任务。这种范式尤其适合机器人，因为它们需要学习了解自己的动力工作方式和功能可供性，这些可以被应用到很多不同的任务中。本文提出了使用 Variance-And-Novelty-Intrinsic-Rewards 的 texplore 算法（TEXPLORE-VANIR），这是一种内在激励的基于模型的强化学习算法。该算法可使用随机森林学习一个域的转变动态（transition dynamics）的模型。它可以计算来自这个模型的两种不同的内在动机：一个用于探索模型中哪些地方是不确定的，一个用于习得该模型未曾训练过的全新经验。本文给出的实验表明，这两种内在奖励的组合使得该算法可以在没有外部奖励的情况下学会一个域的准确模型，而且这个学习到的模型之后可被用于在该域中执行任务。在学习模型时，这种智能体可以以一种发育式和好奇的方式摸索该域，逐渐学会越来越复杂的技能。此外，实验还表明，将智能体的内在奖励与外部任务奖励结合起来可以使该智能体学得比仅使用外部奖励更快。我们的结果还表明这种方法可以应用在机器人的学习上。