Deep Q Network (DQN) is a very successful algorithm, yet the inherent problem of reinforcement learning, i.e. the exploit-explore balance, remains. In this work, we introduce entropy regularization into DQN and propose SQN. We find that the backup equation of soft Q learning can enjoy the corrective feedback if we view the soft backup as policy improvement in the form of Q, instead of policy evaluation. We show that Soft Q Learning with Corrective Feedback (SQL-CF) underlies the on-plicy nature of SQL and the equivalence of SQL and Soft Policy Gradient (SPG). With these insights, we propose an on-policy version of deep Q learning algorithm, i.e. Q On-Policy (QOP). We experiment with QOP on a self-play environment called Google Research Football (GRF). The QOP algorithm exhibits great stability and efficiency in training GRF agents.


翻译:深Q网络(DQN)是一个非常成功的算法,然而,强化学习的固有问题,即开发-爆炸平衡,仍然存在。在这项工作中,我们将加密正规化引入DQN并提议SQN。我们发现软Q学习的备份方程式可以享有纠正反馈,如果我们把软备份视为Q形式的政策改进,而不是政策评价。我们显示,软备份与纠正反馈(SQL-CF)的软学习是SQL(SQL-CF)的简单性质和SQL和软政策进步(SPG)的等同性的基础。根据这些见解,我们提出了深Q学习算法的政策版本,即QOP(Q-POL-Policy(QOP) 。我们与QOP(QOP)实验一个叫作谷歌研究足球(GRF)的自玩环境。QOP算法在培训GRF代理方面表现出极大的稳定性和效率。

0
下载
关闭预览

相关内容

【干货书】真实机器学习,264页pdf,Real-World Machine Learning
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
53+阅读 · 2019年7月28日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年2月16日
Arxiv
5+阅读 · 2021年2月15日
Arxiv
3+阅读 · 2020年4月29日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
53+阅读 · 2019年7月28日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年2月16日
Arxiv
5+阅读 · 2021年2月15日
Arxiv
3+阅读 · 2020年4月29日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Residual Policy Learning
Arxiv
4+阅读 · 2018年12月15日
Arxiv
5+阅读 · 2018年5月1日
Arxiv
11+阅读 · 2018年4月25日
Top
微信扫码咨询专知VIP会员