Eligibility traces are an effective technique to accelerate reinforcement learning by smoothly assigning credit to recently visited states. However, their online implementation is incompatible with modern deep reinforcement learning algorithms, which rely heavily on i.i.d. training data and offline learning. We utilize an efficient, recursive method for computing {\lambda}-returns offline that can provide the benefits of eligibility traces to any value-estimation or actor-critic method. We demonstrate how our method can be combined with DQN, DRQN, and A3C to greatly enhance the learning speed of these algorithms when playing Atari 2600 games, even under partial observability. Our results indicate several-fold improvements to sample efficiency on Seaquest and Q*bert. We expect similar results for other algorithms and domains not considered here, including those with continuous actions.

4
下载
关闭预览

相关内容

深度强化学习策略梯度教程,53页ppt
专知会员服务
131+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
66+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
33+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
98+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
96+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
193+阅读 · 2019年10月9日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
8+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
33+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
14+阅读 · 2018年11月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
10+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
16+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
5+阅读 · 2019年1月10日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
5+阅读 · 2019年1月8日
Arxiv
6+阅读 · 2018年12月26日
Relational Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年6月28日
Arxiv
7+阅读 · 2018年6月19日
Arxiv
6+阅读 · 2018年4月24日
小贴士
相关论文
Accelerated Methods for Deep Reinforcement Learning
Arxiv
5+阅读 · 2019年1月10日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
5+阅读 · 2019年1月8日
Arxiv
6+阅读 · 2018年12月26日
Relational Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年6月28日
Arxiv
7+阅读 · 2018年6月19日
Arxiv
6+阅读 · 2018年4月24日
相关VIP内容
深度强化学习策略梯度教程,53页ppt
专知会员服务
131+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
66+阅读 · 2019年12月23日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
33+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
98+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
96+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
193+阅读 · 2019年10月9日
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
8+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
33+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
14+阅读 · 2018年11月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
Reinforcement Learning: An Introduction 2018第二版 500页
CreateAMind
10+阅读 · 2018年4月27日
强化学习族谱
CreateAMind
16+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员