In the absence of external rewards, agents can still learn useful behaviors by identifying and mastering a set of diverse skills within their environment. Existing skill learning methods use mutual information objectives to incentivize each skill to be diverse and distinguishable from the rest. However, if care is not taken to constrain the ways in which the skills are diverse, trivially diverse skill sets can arise. To ensure useful skill diversity, we propose a novel skill learning objective, Relative Variational Intrinsic Control (RVIC), which incentivizes learning skills that are distinguishable in how they change the agent's relationship to its environment. The resulting set of skills tiles the space of affordances available to the agent. We qualitatively analyze skill behaviors on multiple environments and show how RVIC skills are more useful than skills discovered by existing methods when used in hierarchical reinforcement learning.


翻译:在没有外部奖励的情况下,代理商仍然可以通过在环境中发现和掌握一套不同的技能来学习有用的行为。现有的技能学习方法使用相互的信息目标来激励每一种技能的多样化和区别于其他技能。然而,如果不注意限制技能多样性的方式,就会出现微乎其微的多样化技能组合。为了确保有用的技能多样性,我们提出了一个新的技能学习目标,即相对变化式的内在控制(RVIC),它鼓励学习技能,这些技能在如何改变代理商与环境的关系方面可以辨别。由此产生的一套技能将代理商可利用的支付空间打乱成一块。我们从质量上分析多种环境中的技能行为,并展示RVIC技能如何比在等级强化学习中使用现有方法发现的技能更有用。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
强化学习最新教程,17页pdf
专知会员服务
181+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
279+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2019年4月19日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
4+阅读 · 2018年4月10日
Arxiv
3+阅读 · 2018年1月31日
VIP会员
相关VIP内容
相关资讯
已删除
将门创投
3+阅读 · 2019年4月19日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员