【AAAI2022】受限评委下双执行者的高效连续控制

2021 年 12 月 22 日 专知

《受限评委下双执行者的高效连续控制》(Efficient Continuous Control with Double Actors and Regularized Critics,作者:控制科学与工程专业2020级博士生吕加飞,导师:李秀)

值函数衡量了从当前的状态出发,采取动作后所能取得的未来累计折扣奖励值。值函数估计问题是强化学习(Reinforcement Learning),尤其是深度强化学习中非常重要的一个问题。对于值函数的准确估计可以使得策略网络向着准确可靠的方向优化。现有的一些值函数估计的经典算法,比如DDPGTD3等,都或多或少会对值函数进行高估(overestimation)或者低估(underestimation)。近年来的一些方法大多都集中于增强或者改进double critics架构,而长时间忽略了double actors的作用和优点。基于此,作者使用double actors进行值函数修正以获得更好的探索能力和更好的值函数估计,同时对critic网络进行约束以减小值函数估计的不确定度。

 

https://www.zhuanzhi.ai/paper/064ad32006247d4c1c8dc84b8c3fec1c


2Double actors帮助智能体逃离局部最优。图中绿色曲线为真实Q值的分布示意,蓝色竖线表明使用单个actor得到的分布采样点,而红色竖线表示double actors得到的分布采样点。



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“ECDA” 就可以获取【AAAI2022】受限评委下双执行者的高效连续控制》专知下载链接

商务、投稿、技术等合作:请加微信助手:Quan_ABT, 或发邮件到bd@zhuanzhi.ai

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取7万+AI主题干货知识资料!

点击“ 阅读原文 ”,了解使用 专知
登录查看更多
0

相关内容

【AAAI2022】混合图神经网络的少样本学习
专知会员服务
45+阅读 · 2021年12月14日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
43+阅读 · 2021年12月6日
专知会员服务
27+阅读 · 2021年6月18日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
29+阅读 · 2020年12月14日
专知会员服务
19+阅读 · 2020年12月9日
专知会员服务
16+阅读 · 2020年12月4日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
103+阅读 · 2020年3月2日
【AAAI2022】混合课程学习对话情绪识别
专知
0+阅读 · 2021年12月24日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
11+阅读 · 2018年9月28日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
相关VIP内容
【AAAI2022】混合图神经网络的少样本学习
专知会员服务
45+阅读 · 2021年12月14日
【AAAI2022】领域自适应的主动学习:一种基于能量的方法
专知会员服务
43+阅读 · 2021年12月6日
专知会员服务
27+阅读 · 2021年6月18日
专知会员服务
15+阅读 · 2021年3月4日
专知会员服务
29+阅读 · 2020年12月14日
专知会员服务
19+阅读 · 2020年12月9日
专知会员服务
16+阅读 · 2020年12月4日
【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
103+阅读 · 2020年3月2日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员