NeurIPS 2018 | 腾讯AI Lab：可自适应于不同环境和任务的强化学习方法

2018 年 12 月 4 日 PaperWeekly

本文是由南加州大学和腾讯 AI Lab 合作发表于 NeurIPS 2018 的 Spotlight 论文之一，这项工作研究了同时在不同环境（Env）和不同任务（Task）之间迁移的问题，目的是利用稀疏的（Env, Task）组合就能学到在所有可能组合中迁移的能力。

本文提出了一种新颖的部件神经网络，它描述了如何从环境和任务来组成强化学习策略的元规则。值得注意的是，这里的主要挑战之一是环境和任务的特征描述必须与元规则一起学习。为此，研究者又进一步提出了新的训练方法来解锁这两种学习任务，使得最终的特征描述不仅成为环境和任务的独特签名，更成为组建策略的有效模块。

研究者在 GRIDWORLD 和 AI2-THOR 上进行了大量实验，结果表明新提出的模型可以有效地在 400 个（Env, Task）组合之间成功迁移，而模型的训练只需要这些组合的大概 40%。

方法简介

传统的强化学习在同一个环境下试图解决同一个任务——比如 AlphaGo，我们希望把这种受限情况下的进展推广到更一般的情况：多个环境（比如不同的迷宫），多个任务（比如逃离迷宫、找到宝藏、收集金币等不同任务）。

如上图所示，红色代表训练阶段见到的环境与任务组合，灰色代表只在测试阶段才会见到的组合：

（a）是最简单的情况，尽管有一些组合在训练阶段没见过，但是每个环境（同理，每个任务）都在训练的时候出现过；

（b）相对复杂一些，在测试阶段出现的新的组合里面，或者任务是新的——训练时候没有见过，或者环境是新的；

（c）是最复杂的情况，在测试阶段出现的新组合里面，任务和环境都是以前没有见过的。

我们提出一个统一的框架来解决上述三个问题，这个框架的关键在于同时学习环境和任务的描述子以及如何从这些描述子构建规则。

我们的基本假设是规则的构建方式对于不同的（环境、任务）组合是相通的：于是，当智能体在测试阶段给定了新的（环境、任务）组合时，针对（a）它可以利用以前学习到的描述子构建相应的规则；针对（b）和（c），也就是存在新的以前没见过的环境或/和任务，我们允许智能体做少量的交互来快速学习描述子——一旦环境和任务描述子学习完成，它就可以构建规则，不需要像传统的强化学习那样重新学习规则。

具体来说，我们提出的框架如下：

虽然上述框架具备了我们要求的同时学习规则以及环境与任务描述子的功能，但是在学习阶段有一个陷阱：很可能，规则和描述子会耦合在一起，使得智能体在见到的（环境、任务）组合上表现很好，但是没办法在测试阶段处理新的组合。

为了解决这个问题，就需要把规则构建方式和描述子解耦，使得描述子确实可以有效描述和区分不同的环境与任务，同时又能帮助构建有效的规则。相对应的，在训练的时候，除去传统的用于完成任务的奖励函数，我们还加上针对描述子特有的用于分类的奖励函数——基于描述子的状态描述应该能成功区分不同环境和任务。

实验设定

我们分别在走迷宫和室内导航上进行了实验。以下主要描述走迷宫；关于室内导航的实验请见论文。

上图展示了 16 个不同的迷宫（环境），其中红黄绿紫等颜色方块代表不同宝藏——它们各自代表一个任务，同时收集它们的不同顺序又能定义新的任务。

如下图所示，我们假定智能体在迷宫中行走的时候，视野范围只有 3 x 3。

实验结果

如下图所示，我们的方法（SynPo）成功的超过了最近提出的几个方法，包括多任务神经网络（MTL），模块化神经网络（ModuleNet），专门用于迁移学习的 SF，还有一个我们自己方法的简化版（MLP）。

另外，我们也分别研究了智能体在见过和没见过的（环境、任务）组合上的表现。如下图所示，对于智能体在训练阶段见过的组合，它在测试阶段始终表现不错；对于没见过的组合，它只需要在 40% 的组合上学习，就能达到很好的效果。

最后，我们给出在 10 个环境和 10 个任务组合上训练，然后在 20 个环境和 20 个任务上做测试的结果。如下图所示，每一行代表一个任务，每一列代表一个环境，其中左上角的 10 个环境和任务是用于训练的。

测试阶段，为了拓展到新的环境（右上角），我们允许智能体和环境做少量交互，用于得到环境的描述子，然后构建规则；为了拓展到新的任务（左下角），我们如法炮制，得到任务的描述子。

得到所有描述子以后，我们就可以构建针对任意组合的规则了。在相应规则指导下，智能体完成任务的表现如上图，深色代表高成功率，浅色代表低成功率。我们可以看到向新的任务迁移比向新的环境迁移容易一些，而两者都是以前未见的时候，迁移是最难的。

点击以下标题查看更多论文解读：

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文

登录查看更多

相关内容

元规则

关注 0

【KDD2020】自适应多通道图卷积神经网络

专知会员服务

121+阅读 · 2020年7月9日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

《强化学习》简介小册，24页pdf

专知会员服务

277+阅读 · 2020年4月19日

【Texas 大学】强化学习领域的课程学习:一个框架和综述

专知会员服务

73+阅读 · 2020年3月22日

【ICLR2020-MIT】元学习的好奇心算法，Meta-learning curiosity algorithms

专知会员服务

34+阅读 · 2020年3月13日

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【NeurIPS 2019论文PPT】通过任务感知调制的多模态模型不可知论元学习（Multimodal Model Agnostic Meta-Learning via Task-Aware Modulation）

专知会员服务

24+阅读 · 2019年12月30日

【斯坦福大学Chelsea Finn-NeurIPS 2019】贝叶斯元学习

专知会员服务

38+阅读 · 2019年12月17日

NeurIPS提前看 | 四篇论文，一窥元学习的最新研究进展

机器之心

12+阅读 · 2019年12月9日

ICCV 2019 | 马里兰&UC 伯克利共同提出：适应不断变化环境进行语义分割

AI科技评论

15+阅读 · 2019年9月25日

解耦强化学习的值函数学习

CreateAMind

6+阅读 · 2019年9月5日

让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

AI科技评论

7+阅读 · 2019年6月17日

【强化学习】强化学习到深度强化学习、强化学习商业用例

产业智能官

30+阅读 · 2019年2月9日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

【强化学习】强化学习/增强学习/再励学习介绍

产业智能官

10+阅读 · 2018年2月23日

AAAI 2018 | 腾讯提出自适应图卷积神经网络，接受不同图结构和规模的数据

机器之心

12+阅读 · 2018年1月21日

已删除

将门创投

8+阅读 · 2017年7月21日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

Physical Primitive Decomposition

Arxiv

4+阅读 · 2018年9月13日

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

Variational Bayesian Reinforcement Learning with Regret Bounds

Arxiv

3+阅读 · 2018年7月25日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

VIP会员