《受限评委下双执行者的高效连续控制》(Efficient Continuous Control with Double Actors and Regularized Critics,作者:控制科学与工程专业2020级博士生吕加飞,导师:李秀)

值函数衡量了从当前的状态出发,采取动作后所能取得的未来累计折扣奖励值。值函数估计问题是强化学习(Reinforcement Learning),尤其是深度强化学习中非常重要的一个问题。对于值函数的准确估计可以使得策略网络向着准确可靠的方向优化。现有的一些值函数估计的经典算法,比如DDPG、TD3等,都或多或少会对值函数进行高估(overestimation)或者低估(underestimation)。近年来的一些方法大多都集中于增强或者改进double critics架构,而长时间忽略了double actors的作用和优点。基于此,作者使用double actors进行值函数修正以获得更好的探索能力和更好的值函数估计,同时对critic网络进行约束以减小值函数估计的不确定度。

https://www.zhuanzhi.ai/paper/064ad32006247d4c1c8dc84b8c3fec1c

成为VIP会员查看完整内容
16

相关内容

【AAAI2022】锚框排序知识蒸馏的目标检测
专知会员服务
25+阅读 · 2022年2月10日
清华大学:从单体仿生到群体智能
专知会员服务
61+阅读 · 2022年2月9日
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
专知会员服务
20+阅读 · 2021年8月31日
专知会员服务
26+阅读 · 2021年5月24日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
16+阅读 · 2020年12月4日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
11+阅读 · 2020年8月11日
CVPR & AAAI 2020 | 人脸活体检测最新进展
CVer
4+阅读 · 2020年3月20日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
53+阅读 · 2019年7月28日
除了DQN/A3C,还有哪些高级强化学习成果
论智
14+阅读 · 2018年10月28日
GFlowNet Foundations
Arxiv
9+阅读 · 2021年11月17日
Arxiv
26+阅读 · 2020年2月21日
VIP会员
相关VIP内容
【AAAI2022】锚框排序知识蒸馏的目标检测
专知会员服务
25+阅读 · 2022年2月10日
清华大学:从单体仿生到群体智能
专知会员服务
61+阅读 · 2022年2月9日
【AAAI2022】一种基于状态扰动的鲁棒强化学习算法
专知会员服务
32+阅读 · 2022年1月31日
专知会员服务
20+阅读 · 2021年8月31日
专知会员服务
26+阅读 · 2021年5月24日
【AAAI2021】 层次图胶囊网络
专知会员服务
80+阅读 · 2020年12月18日
专知会员服务
16+阅读 · 2020年12月4日
微信扫码咨询专知VIP会员