【CMU-Google-斯坦福】可控行为的弱监督强化学习,Weakly-Supervised RL

2020 年 4 月 8 日 专知


强化学习(RL)是学习采取行动解决任务的强大框架。然而,在许多情况下,一个代理必须将所有可能的任务的大得令人难以置信的空间缩小到当前要求它解决的单个任务。我们是否可以将任务的空间限制在语义上有意义的范围内呢?在这项工作中,我们介绍了一个使用弱监督的框架来自动地把这个语义上有意义的子空间的任务从巨大的无意义的“杂碎”任务中分离出来。我们证明了这个学习得的子空间能够进行有效的探索,并提供了捕获状态之间距离的表示。对于各种具有挑战性的、基于视觉的连续控制问题,我们的方法带来了大量的性能收益,特别是随着环境的复杂性的增长。

https://arxiv.org/abs/2004.02860


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“WSRL” 就可以获取【CMU-Google-斯坦福】可控行为的弱监督强化学习,Weakly-Supervised RL》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
75+阅读 · 2020年4月24日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
32+阅读 · 2020年3月30日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
UC伯克利Pieter Abbeel谈论强化学习-视频
专知
7+阅读 · 2018年12月17日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
Continual Unsupervised Representation Learning
Arxiv
7+阅读 · 2019年10月31日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
7+阅读 · 2018年5月23日
VIP会员
Top
微信扫码咨询专知VIP会员