This paper introduces a novel design of model-free reinforcement learning, CASA, Critic AS an Actor. CASA follows the actor-critic framework that estimates state-value, state-action-value and policy simultaneously. We prove that CASA integrates a consistent path for the policy evaluation and the policy improvement, which completely eliminates the gradient conflict between the policy improvement and the policy evaluation. The policy evaluation is equivalent to a compensational policy improvement, which alleviates the function approximation error, and is also equivalent to an entropy-regularized policy improvement, which prevents the policy from being trapped into a suboptimal solution. Building on this design, an expectation-correct Doubly Robust Trace is introduced to learn state-value and state-action-value, and the convergence is guaranteed. Our experiments show that the design achieves State-Of-The-Art on Arcade Learning Environment.


翻译:本文介绍了无模型强化学习的新设计,即CASA、CRit AS As a Actor。CASA遵循同时估计国家价值、国家行动价值和政策的行为者-批评框架。我们证明,CASA结合了政策评价和政策改进的一致道路,从而完全消除了政策改进和政策评价之间的梯度冲突。政策评价相当于补偿性政策改进,这减轻了功能近似错误,也相当于对政策进行昆虫常规化改进,防止政策陷入不理想的解决方案。在这个设计的基础上,引入了一种对期望的正确的Doubly Robust Trace,以学习国家价值和州行动价值,并保证了这种趋同。我们的实验表明,设计实现了Arcade学习环境的“国家-地方-艺术”设计。

1
下载
关闭预览

相关内容

国际计算机动画和社会代理国际会议(CASA )是世界上最古老的计算机动画和社交代理国际会议。会议主题包括但不限于计算机动画,虚拟代理,社交代理,虚拟现实和增强现实以及可视化。 官网地址:http://dblp.uni-trier.de/db/conf/ca/
专知会员服务
14+阅读 · 2021年5月21日
【Google】梯度下降,48页ppt
专知会员服务
80+阅读 · 2020年12月5日
专知会员服务
52+阅读 · 2020年9月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年7月16日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年5月21日
【Google】梯度下降,48页ppt
专知会员服务
80+阅读 · 2020年12月5日
专知会员服务
52+阅读 · 2020年9月7日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
MIT新书《强化学习与最优控制》
专知会员服务
273+阅读 · 2019年10月9日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员