众所周知,Q-learning算法会受到最大化偏差的影响,即对动作值的系统性高估,这是最近重新受到关注的一个重要问题。双Q学习被提出作为一种有效的算法来缓解这种偏差。然而,这样做的代价是动作值被低估,以及内存需求增加和收敛速度减慢。在本文中,我们提出了一种新的方法来解决最大化偏差问题,即采用“自校正算法”来逼近期望值的最大值。我们的方法平衡了传统Q-learning中单估计量的高估和双估计量的低估。将此策略应用到Q-learning中,就会产生自校正Q-learning。我们从理论上证明了该算法具有与Q-learning相同的收敛性保证,并且更加精确。从经验上看,它在高方差奖励领域优于双Q-learning,甚至在零或低方差奖励领域的收敛速度也比Q-learning快。这些优势转移到深度Q网络实现,我们称之为自校正DQN,它在Atari2600域的几个任务上优于常规DQN和双DQN。

https://www.zhuanzhi.ai/paper/7ac6a8d6fb4d231cf273760d59f8dab2

成为VIP会员查看完整内容
16

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
40+阅读 · 2020年12月19日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
16+阅读 · 2020年8月18日
【KDD2020】基于纳什强化学习的鲁棒垃圾邮件发送者检测
专知会员服务
16+阅读 · 2020年8月16日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
61+阅读 · 2020年5月25日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习资源集合】Awesome Reinforcement Learning
专知会员服务
94+阅读 · 2019年12月23日
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
深度互学习-Deep Mutual Learning:三人行必有我师
深度学习大讲堂
7+阅读 · 2019年6月27日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
11+阅读 · 2020年12月2日
Meta-Transfer Learning for Few-Shot Learning
Arxiv
4+阅读 · 2019年4月9日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
元强化学习迎来一盆冷水:不比元Q学习好多少
AI科技评论
12+阅读 · 2020年2月27日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
深度互学习-Deep Mutual Learning:三人行必有我师
深度学习大讲堂
7+阅读 · 2019年6月27日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
入门 | 通过 Q-learning 深入理解强化学习
机器之心
12+阅读 · 2018年4月17日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
深度强化学习的弱点和局限(上)
论智
8+阅读 · 2018年2月26日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
微信扫码咨询专知VIP会员