In value-based deep reinforcement learning methods, approximation of value functions induces overestimation bias and leads to suboptimal policies. We show that in deep actor-critic methods that aim to overcome the overestimation bias, if the reinforcement signals received by the agent have a high variance, a significant underestimation bias arises. To minimize the underestimation, we introduce a parameter-free, novel deep Q-learning variant. Our Q-value update rule combines the notions behind Clipped Double Q-learning and Maxmin Q-learning by computing the critic objective through the nested combination of maximum and minimum operators to bound the approximate value estimates. We evaluate our modification on the suite of several OpenAI Gym continuous control tasks, improving the state-of-the-art in every environment tested.


翻译:在基于价值的深层强化学习方法中,价值函数近似值会引起高估偏差,并导致低于最佳的政策。我们表明,在旨在克服高估偏差的深层次行为者-批评方法中,如果代理人收到的增强信号存在很大差异,就会出现重大的低估偏差。为了尽量减少低估,我们引入了一个无参数的、新的深层次Q学习变体。我们的Q值更新规则结合了Clipped 双Q学习和Maxmin Q学习背后的概念,通过最大和最低操作者的嵌套组合来计算批评目标,以约束近似价值估计。我们评估了我们对几个OpenAI Gym连续控制任务的套件的修改,改进了每个测试环境中的最新技术。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
【CMU】最新深度学习课程, Introduction to Deep Learning
专知会员服务
36+阅读 · 2020年9月12日
因果图,Causal Graphs,52页ppt
专知会员服务
243+阅读 · 2020年4月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
27+阅读 · 2020年12月24日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
7+阅读 · 2018年12月26日
VIP会员
相关资讯
ICRA 2019 论文速览 | 基于Deep Learning 的SLAM
计算机视觉life
41+阅读 · 2019年7月22日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【OpenAI】深度强化学习关键论文列表
专知
11+阅读 · 2018年11月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员