One practical challenge in reinforcement learning (RL) is how to make quick adaptations when faced with new environments. In this paper, we propose a principled framework for adaptive RL, called \textit{AdaRL}, that adapts reliably and efficiently to changes across domains with a few samples from the target domain, even in partially observable environments. Specifically, we leverage a parsimonious graphical representation that characterizes structural relationships over variables in the RL system. Such graphical representations provide a compact way to encode what and where the changes across domains are, and furthermore inform us with a minimal set of changes that one has to consider for the purpose of policy adaptation. We show that by explicitly leveraging this compact representation to encode changes, we can efficiently adapt the policy to the target domain, in which only a few samples are needed and further policy optimization is avoided. We illustrate the efficacy of AdaRL through a series of experiments that vary factors in the observation, transition, and reward functions for Cartpole and Atari games.


翻译:强化学习(RL)的一个实际挑战是如何在面对新环境时快速适应。在本文件中,我们提出了一个适应性RL的原则框架,称为\textit{AdaRL},它可靠和高效地适应跨域的变化,有目标域的几个样本,即使是部分可观测环境中的样本。具体地说,我们利用一种模糊的图形代表方式来描述结构关系相对于RL系统中变量的特点。这种图形表达方式提供了一种缩略语,用以说明跨域的变化是什么和在哪里,并告诉我们为了政策适应而必须考虑的最低限度的一套变化。我们表明,通过明确利用这一契约代表方式来编码变化,我们可以有效地将政策调整到目标域,只需要少数几个样本,并避免进一步的政策优化。我们通过一系列实验来说明AdaRL的功效,这些实验在观察、过渡和奖励卡托尔和阿塔里游戏的功能方面有着不同的因素。

0
下载
关闭预览

相关内容

【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
迁移学习简明教程,11页ppt
专知会员服务
106+阅读 · 2020年8月4日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
8+阅读 · 2021年5月21日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
4+阅读 · 2020年3月19日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Arxiv
4+阅读 · 2018年12月3日
Arxiv
5+阅读 · 2018年6月12日
VIP会员
相关VIP内容
【如何做研究】How to research ,22页ppt
专知会员服务
108+阅读 · 2021年4月17日
迁移学习简明教程,11页ppt
专知会员服务
106+阅读 · 2020年8月4日
深度强化学习策略梯度教程,53页ppt
专知会员服务
176+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
168+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
11+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
8+阅读 · 2021年5月21日
Arxiv
5+阅读 · 2020年6月16日
Arxiv
4+阅读 · 2020年3月19日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
Transfer Adaptation Learning: A Decade Survey
Arxiv
37+阅读 · 2019年3月12日
Arxiv
4+阅读 · 2018年12月3日
Arxiv
5+阅读 · 2018年6月12日
Top
微信扫码咨询专知VIP会员