通过利用先前学习的任务来加速复杂任务的学习过程一直是强化学习中最具挑战性的问题之一,尤其是当源任务和目标任务之间的相似性较低时。本文针对深度强化学习中的知识迁移问题,提出了表示与实例迁移(REPAINT)算法。REPAINT 不仅在策略学习中转移了预先训练的教师策略的表示,而且还使用基于优势的经验选择方法来转移在非策略学习中按照教师策略收集的有用样本。本文在几个基准任务上的实验结果表明,在任务相似的一般情况下,REPAINT 显著减少了总训练时间。尤其是当源任务与目标任务不同或子任务不同时,REPAINT 在训练时间减少和返回分数的渐近表现方面都优于其他基线。

论文链接: https://www.zhuanzhi.ai/paper/0439c2852ae341fff43de69e5c7062ff

成为VIP会员查看完整内容
23

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
专知会员服务
35+阅读 · 2021年9月18日
专知会员服务
20+阅读 · 2021年9月16日
专知会员服务
33+阅读 · 2021年9月7日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
66+阅读 · 2021年7月25日
专知会员服务
37+阅读 · 2021年7月17日
AAAI2021 | 学习预训练图神经网络
专知会员服务
116+阅读 · 2021年1月28日
专知会员服务
17+阅读 · 2020年12月4日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
156+阅读 · 2020年9月20日
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
论文荐读:理解图表示学习中的负采样
学术头条
29+阅读 · 2020年5月29日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
迁移自适应学习最新综述,附21页论文下载
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
想轻松复现深度强化学习论文?看这篇经验之谈
机器之心
4+阅读 · 2018年4月10日
Arxiv
4+阅读 · 2021年10月19日
Arxiv
13+阅读 · 2021年3月29日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2021年9月18日
专知会员服务
20+阅读 · 2021年9月16日
专知会员服务
33+阅读 · 2021年9月7日
专知会员服务
20+阅读 · 2021年8月30日
专知会员服务
39+阅读 · 2021年8月20日
专知会员服务
66+阅读 · 2021年7月25日
专知会员服务
37+阅读 · 2021年7月17日
AAAI2021 | 学习预训练图神经网络
专知会员服务
116+阅读 · 2021年1月28日
专知会员服务
17+阅读 · 2020年12月4日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
156+阅读 · 2020年9月20日
相关资讯
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
论文荐读:理解图表示学习中的负采样
学术头条
29+阅读 · 2020年5月29日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
【综述】迁移自适应学习十年进展
专知
41+阅读 · 2019年11月26日
迁移自适应学习最新综述,附21页论文下载
深度强化学习入门,这一篇就够了!
机器学习算法与Python学习
27+阅读 · 2018年8月17日
想轻松复现深度强化学习论文?看这篇经验之谈
机器之心
4+阅读 · 2018年4月10日
微信扫码咨询专知VIP会员