DeepMind提出想象智能体,更鲁棒AlphaGo逼近真实世界

2017 年 7 月 30 日 新智元

新智元编译  

来源:DeepMind.com

编译:熊笑


【新智元导读】DeepMind 最新发布的两篇论文提出了有想象力和计划能力的智能体。这些智能体能够想象行动结果、制定计划,为最高效地完成任务提供了新方法。智能体对复杂而不完善的模型鲁棒性强,即使离开围棋这样的“完美”环境,也能采用灵活的策略来发掘其想象力。



DeepMind 两篇最新论文提出了有想象力和计划能力的智能体


《有想象和计划能力的智能体》——这是DeepMind 一篇最新博客的题目。该文介绍了 DeepMind 最近发表的两篇论文:Imagination-Augmented Agents for Deep Reinforcement Learning 和 Learning model-based planning fromscratch。这两篇论文在 arXiv 上已经可以看到了。论文描述了一系列方法,用于基于想象的计划(imagination-based planning),同时也介绍了一些架构,这些架构为智能体学习和制定计划从而最高效地完成任务提供了新方法。这些架构很高效,对复杂而不完善的模型鲁棒性强,且能采用灵活的策略来发掘其想象力。

 

简单来说,这些研究发现,通过为其软件智能体植入类似想象力的东西,能够让它们更快的学习。研究描述了通过想象计划(imaginative planning)提高深度强化学习的新方法。

 

学会想象的智能体在玩 Sokoban(推箱子)这个游戏时,解决了 85% 的问题,而基准智能体完成了 65%。想象增强智能体同时也超过了没有使用想象规划的标准智能体的增强版本。


两篇论文摘要如下:


Imagination-Augmented Agents for Deep Reinforcement Learning

深度强化学习的想象增强智能体(Imagination-Augmented Agents)

 



我们在此介绍想象增强智能体(I2As),一种全新的结合了脱离模型及基于模型两方面的深度强化学习架构。现行的大多数基于模型的强化学习及计划方法会规定一个模型如何被使用以形成策略,I2As学习通过已学到的环境模型,将预测作为深度策略网络中补充的context,以随机的方式构建计划。与其他一些算法相比,I2As展现出了更高的数据有效性、更优的表现及更强的鲁棒性。

 

Learningmodel-based planning from scratch

基于模型计划入门

 

 

基于模型计划通常被视为做出序列决策的有效方法。但这种方法在实际操作中存在挑战,用于评估计划的模型并不参与制定计划。在此我们提出“想象力编码器(Imagination-basedPlanner)”,首个可制定、评估及实施计划的,基于模型的,可作出序列决策的智能体。在采取任何行动之前,它能够做出一系列想象的步骤,包括提出一个想象的行动,并利用其基于模型的想象来对此行动做出评估。所有想象出来的行为和结果都被以迭代的方式集合为“plan context”,对未来的想象出来的及实际的行动进行调节。这一智能体甚至能够决定想象的方式:测试不同的想象出来的行动,将一系列的行动连接起来,利用学到的策略在想象出来的状态中灵活选择来建立一个更为复杂的“想象树”。该智能体还能做出更经济、高效的计划,利用其想象来基于外部奖励及计算成本进行优化。这一架构能够学会解决连续控制问题,还能够学会详述自己在非连续解谜任务中所采取的计划策略。我们这一工作为学习和使用基于模型计划系统提供了新的方向。


想象增强智能体


DeepMind 的博客首先解释了“想象力(Imagination)”这个概念:


人类认知很厉害的一点在于,在你采取行动前,已经能想象出行动的结果。比如要在一张桌子的边上放一个玻璃杯子,我们很可能会停下来想一想,放得稳不稳?会不会掉下来?基于想象的结果,我们就会做出调整,防止杯子掉下来摔碎。这种审慎的推理基本上就是我们要说的“想象力”(Imagination)。我们的这种能力对每天的日常生活至关重要。


如果想让算法也能执行同样复杂的行为,它就必须也具有“想象力”,能够对未来进行推理,另外,还必须会用这种能力来制定计划。

 

已经有算法能够做到这一点了,比如 AlphaGo 就能利用内部模型(internal model)来分析行为将产生的结果,从而实现推理和计划。但这些模型之所以运行良好,是因为像围棋这样的运行环境是“完美”的,具有明确定义的规则,在几乎所有情况下都能准确预测结果。

 

然而,真实的世界是复杂的,规则的定义没有那么明确,不可预知的问题会经常出现。即使对于最智慧的智能体来说,在这些复杂的环境下进行“想象”都会是一个耗时、耗资源的过程。

 

DeepMind 在此介绍的智能体受益于“想象编码器(Imagination encoder)”—一种能为智能体的决策学习抽取一切有用信息并忽略掉无关信息的神经网络,这些智能体有如下显著特征:

  

  • 它们能够学习阐释其内部模拟过程。这使得它们可以使用粗略捕捉环境动态的模型,即使这些动态并不完美;

 

  • 它们能够高效地使用其想象力,这一点可以通过调整想象出的问题解决途径(trajectory)的数量来完成。编码器也增强了效率,能够通过想象抽取额外信息,而不单单依靠rewards。这些想象的途径可能含有有用的线索,即使其未必引发较高的奖励。 


  • 它们能够学习不同的制定计划的策略,可以在继续当前想象的途径和从头开始之间做出选择。或者,可以利用精度和计算成本不同的想象模型。这提供了大量的、高效的规划策略,而不是在不完美环境中会受到限制的单一方法。


两款游戏成为测试智能体能力的绝佳环境


在多个不同游戏上,DeepMind 对该架构进行了测试,包括解密游戏Sokoban(推箱子)和宇宙飞船航行游戏。这两款游戏都需要提前计划和推理,这使得它们成为了测试智能体能力的绝佳环境。


在推箱子游戏里,智能体必须把箱子推到目标点。箱子只能被推,许多移动都不可逆(例如,箱子一旦被推入角落,就无法再拉出)。


在宇宙飞船游戏中,智能体需要点燃推进器来,而可以这么做的次数也是有限制的,必须与几个星球的引力相抗衡,这是一个复杂的非线性连续调节任务。

 

为了限制这两个任务的试错,智能体在失败后是不能重玩的。这就“逼迫”智能体在采取行动之前,先要想象不同策略带来的结果。



上图,DeepMind 可视化了特定时间点上智能体对5 种可能性的想象。根据这些信息,智能体决定采取什么行动。相应的轨迹在图中已经标明。

 


上图为智能体在进行宇宙飞船航行游戏。红线表示执行的轨迹操作,蓝线和绿线描述了智能体想象的轨迹。

 

两种任务中,想象增强的智能体的表现都优于作为基准的无想象智能体:它们可以通过更少的经验来学习,并且能够处理环境建模的缺陷。智能体能够从内部模拟中提取更多知识,因此可以用更少的想象步骤解决更多的任务,这优于传统的搜索方法,比如蒙特卡罗树搜索。

 

加入一个用于制定计划的组件后,智能体会学习用更少的步骤更高效地实现目标。在宇宙飞船任务中,它可以分辨环境中的引力强弱,这意味着想象的步骤数量不同。当为环境中的智能体提供多个模型时,每个模型的质量和成本都不同,它学会了做出有意义的权衡。最后,每执行一步,想象的计算成本都会增加,所以智能体会在一开始就想象出多个步骤的结果,并利用这些想象的结果做出行动。

 

原文地址:https://deepmind.com/blog/agents-imagine-and-plan/




登录查看更多
0

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
《强化学习》简介小册,24页pdf
专知会员服务
263+阅读 · 2020年4月19日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
专知会员服务
198+阅读 · 2019年8月30日
谷歌的 PlaNet 强化学习网络
AI研习社
4+阅读 · 2019年5月11日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
Image Captioning based on Deep Reinforcement Learning
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
3+阅读 · 2018年6月14日
Arxiv
14+阅读 · 2018年5月15日
Arxiv
4+阅读 · 2018年4月26日
Arxiv
6+阅读 · 2018年4月24日
VIP会员
Top
微信扫码咨询专知VIP会员