​强化学习具有在复杂环境下自动获取行为的潜力,但为了成功地部署它,必须解决许多实际的挑战。首先,在实际设置中,当代理尝试某个任务并失败时,环境必须以某种方式“重置”,以便代理能够再次尝试该任务。虽然在模拟中很容易,但在现实世界中可能需要相当多的人力,特别是在试验数量非常大的情况下。第二,现实世界的学习通常涉及复杂的、时间上延伸的行为,这种行为通常很难通过随机探索获得。虽然这两个问题乍一看似乎是不相关的,但在本研究中,我们将展示一个单一的方法如何允许代理在最小的监督下获得技能,同时消除重置的需要。我们这样做是通过利用这样的洞察力:为学习任务将代理“重置”为一组广泛的初始状态的需要,提供了一种学习多种“重置技能”的自然设置。我们提出了一个平衡重置目标和学习技能的通用和博弈公式,并证明了这种方法提高了无重置任务的性能,另外,我们获得的技能可以用来显著加速下游学习。

https://arxiv.org/abs/2011.05286

成为VIP会员查看完整内容
9

相关内容

【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
48+阅读 · 2020年11月9日
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
19+阅读 · 2020年11月6日
专知会员服务
32+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
专知会员服务
29+阅读 · 2020年9月18日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
Soft Q Network
Arxiv
0+阅读 · 2020年12月14日
Arxiv
4+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关主题
相关VIP内容
【NeurIPS2020 】 数据扩充的图对比学习
专知会员服务
48+阅读 · 2020年11月9日
【Cell 2020】神经网络中的持续学习
专知会员服务
59+阅读 · 2020年11月7日
【NeurIPS2020】可靠图神经网络鲁棒聚合
专知会员服务
19+阅读 · 2020年11月6日
专知会员服务
32+阅读 · 2020年10月2日
【NeurIPS2020】图网的主邻域聚合
专知会员服务
32+阅读 · 2020年9月27日
专知会员服务
29+阅读 · 2020年9月18日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
128+阅读 · 2020年8月27日
微信扫码咨询专知VIP会员