《受限评委下双执行者的高效连续控制》(Efficient Continuous Control with Double Actors and Regularized Critics,作者:控制科学与工程专业2020级博士生吕加飞,导师:李秀)
值函数衡量了从当前的状态出发,采取动作后所能取得的未来累计折扣奖励值。值函数估计问题是强化学习(Reinforcement Learning),尤其是深度强化学习中非常重要的一个问题。对于值函数的准确估计可以使得策略网络向着准确可靠的方向优化。现有的一些值函数估计的经典算法,比如DDPG、TD3等,都或多或少会对值函数进行高估(overestimation)或者低估(underestimation)。近年来的一些方法大多都集中于增强或者改进double critics架构,而长时间忽略了double actors的作用和优点。基于此,作者使用double actors进行值函数修正以获得更好的探索能力和更好的值函数估计,同时对critic网络进行约束以减小值函数估计的不确定度。
https://www.zhuanzhi.ai/paper/064ad32006247d4c1c8dc84b8c3fec1c