It is of significance for an agent to learn a widely applicable and general-purpose policy that can achieve diverse goals including images and text descriptions. Considering such perceptually-specific goals, the frontier of deep reinforcement learning research is to learn a goal-conditioned policy without hand-crafted rewards. To learn this kind of policy, recent works usually take as the reward the non-parametric distance to a given goal in an explicit embedding space. From a different viewpoint, we propose a novel unsupervised learning approach named goal-conditioned policy with intrinsic motivation (GPIM), which jointly learns both an abstract-level policy and a goal-conditioned policy. The abstract-level policy is conditioned on a latent variable to optimize a discriminator and discovers diverse states that are further rendered into perceptually-specific goals for the goal-conditioned policy. The learned discriminator serves as an intrinsic reward function for the goal-conditioned policy to imitate the trajectory induced by the abstract-level policy. Experiments on various robotic tasks demonstrate the effectiveness and efficiency of our proposed GPIM method which substantially outperforms prior techniques.


翻译:对于代理人来说,重要的是学习一种广泛适用和通用的政策,能够实现包括图像和文字描述在内的不同目标。考虑到这种概念特定的目标,深强化学习研究的前沿是学习一种没有手工制作的奖赏的、有目标条件的政策。为了学习这种政策,最近的工作通常将非参数距离作为奖励,在一个明确的嵌入空间里,某一目标之间的距离。从不同的观点看,我们提议一种新型的、不受监督的学习方法,称为目标限制的政策,具有内在动机(GPIM),它既学习抽象层次的政策,又学习一种有目标条件的政策。抽象层次的政策以潜在的变数为条件,以优化一个歧视者,发现多样化的国家,这些变数被进一步转化为目标条件政策的概念特定目标。学过的歧视者作为受目标限制的政策的内在奖赏功能,以模仿由抽象层次政策引出的轨迹。关于各种机器人任务的实验表明我们提议的GPM方法的有效性和效率,它大大超出以前的技术。

0
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
93+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Domain Adaptation via Prompt Learning
Arxiv
0+阅读 · 2022年2月14日
Arxiv
4+阅读 · 2020年3月19日
Arxiv
13+阅读 · 2019年1月26日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
3+阅读 · 2018年10月5日
VIP会员
相关资讯
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
论文浅尝 | Reinforcement Learning for Relation Classification
开放知识图谱
9+阅读 · 2017年12月10日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Domain Adaptation via Prompt Learning
Arxiv
0+阅读 · 2022年2月14日
Arxiv
4+阅读 · 2020年3月19日
Arxiv
13+阅读 · 2019年1月26日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
3+阅读 · 2018年10月5日
Top
微信扫码咨询专知VIP会员