The oscillating performance of off-policy learning and persisting errors in the actor-critic (AC) setting call for algorithms that can conservatively learn to suit the stability-critical applications better. In this paper, we propose a novel off-policy AC algorithm cautious actor-critic (CAC). The name cautious comes from the doubly conservative nature that we exploit the classic policy interpolation from conservative policy iteration for the actor and the entropy-regularization of conservative value iteration for the critic. Our key observation is the entropy-regularized critic facilitates and simplifies the unwieldy interpolated actor update while still ensuring robust policy improvement. We compare CAC to state-of-the-art AC methods on a set of challenging continuous control problems and demonstrate that CAC achieves comparable performance while significantly stabilizes learning.


翻译:行为者-批评(AC)设置了一种算法,可以保守地学会更好地适应稳定性关键应用。在本文中,我们提出了一个新的非政策性AC算法谨慎的行为者-批评(CAC ) 。 谨慎的取名来自一种双重保守的保守性质,即我们利用保守的行为者政策迭代和保守价值迭代的批评者保守价值迭代的典型政策内插。我们的主要观察是,加密正规化的批评家推动和简化了非机械化的内插的行为者更新,同时仍然确保有力的政策改进。我们把CAC比作一套挑战持续控制问题的最新AC方法,并表明CAC在显著稳定学习的同时取得了相似的业绩。

0
下载
关闭预览

相关内容

专知会员服务
55+阅读 · 2020年9月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
55+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年11月25日
Arxiv
8+阅读 · 2021年5月21日
VIP会员
相关VIP内容
专知会员服务
55+阅读 · 2020年9月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
最前沿:深度解读Soft Actor-Critic 算法
极市平台
55+阅读 · 2019年7月28日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员