【AAAI2022】受限评委下双执行者的高效连续控制 - 专知

会员服务 ·

0

【AAAI2022】受限评委下双执行者的高效连续控制

2021 年 12 月 22 日 专知

《受限评委下双执行者的高效连续控制》（Efficient Continuous Control with Double Actors and Regularized Critics，作者：控制科学与工程专业2020级博士生吕加飞，导师：李秀）

值函数衡量了从当前的状态出发，采取动作后所能取得的未来累计折扣奖励值。值函数估计问题是强化学习（Reinforcement Learning），尤其是深度强化学习中非常重要的一个问题。对于值函数的准确估计可以使得策略网络向着准确可靠的方向优化。现有的一些值函数估计的经典算法，比如DDPG、TD3等，都或多或少会对值函数进行高估（overestimation）或者低估（underestimation）。近年来的一些方法大多都集中于增强或者改进double critics架构，而长时间忽略了double actors的作用和优点。基于此，作者使用double actors进行值函数修正以获得更好的探索能力和更好的值函数估计，同时对critic网络进行约束以减小值函数估计的不确定度。

https://www.zhuanzhi.ai/paper/064ad32006247d4c1c8dc84b8c3fec1c

图2：Double actors帮助智能体逃离局部最优。图中绿色曲线为真实Q值的分布示意，蓝色竖线表明使用单个actor得到的分布采样点，而红色竖线表示double actors得到的分布采样点。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“ECDA” 就可以获取《【AAAI2022】受限评委下双执行者的高效连续控制》专知下载链接

商务、投稿、技术等合作：请加微信助手:Quan_ABT, 或发邮件到bd@zhuanzhi.ai

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取7万+AI主题干货知识资料！

点击“ 阅读原文 ”，了解使用专知

登录查看更多

0

相关内容

值函数

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

28+阅读 · 2021年6月18日

【ICLR2021】微分动态规划神经优化器

专知会员服务

16+阅读 · 2021年3月4日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

强化学习和最优控制的《十个关键点》81页PPT汇总

强化学习和最优控制的《十个关键点》81页PPT汇总

专知会员服务

107+阅读 · 2020年3月2日

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知

1+阅读 · 2022年1月25日

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

专知

1+阅读 · 2022年1月10日

【AAAI2022】使用对比式量化表征学习的无监督图像检索方法

【AAAI2022】使用对比式量化表征学习的无监督图像检索方法

专知

3+阅读 · 2021年12月28日

【AAAI2022】混合课程学习对话情绪识别

【AAAI2022】混合课程学习对话情绪识别

专知

0+阅读 · 2021年12月24日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知

3+阅读 · 2021年12月6日

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

资源受限网络化控制系统协同设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

对流扩散最优控制问题的有限元算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂网络系统的有限时间同步控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

虚拟人的连续运动控制研究

国家自然科学基金

2+阅读 · 2011年12月31日

Adversarial Regularization as Stackelberg Game: An Unrolled Optimization Approach

Adversarial Regularization as Stackelberg Game: An Unrolled Optimization Approach

Arxiv

0+阅读 · 2022年4月20日

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics

Arxiv

1+阅读 · 2022年4月20日

Efficient Reinforcement Learning for Unsupervised Controlled Text Generation

Arxiv

0+阅读 · 2022年4月16日

Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning

Arxiv

0+阅读 · 2022年4月15日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

VIP会员

相关主题

相关VIP内容

【KDD2021】拓扑蒸馏推荐系统

专知会员服务

28+阅读 · 2021年6月18日

【ICLR2021】微分动态规划神经优化器

专知会员服务

16+阅读 · 2021年3月4日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

强化学习和最优控制的《十个关键点》81页PPT汇总

强化学习和最优控制的《十个关键点》81页PPT汇总

专知会员服务

107+阅读 · 2020年3月2日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

美海军作战管理系统：变革战场空间的二十年

【MIT博士论文】以语言为中心的医学影像理解

俄罗斯“沙希德”/“天竺葵”攻击无人机

相关资讯

【AAAI2022】不确定性感知的多视角表示学习

【AAAI2022】不确定性感知的多视角表示学习

专知

1+阅读 · 2022年1月25日

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

专知

1+阅读 · 2022年1月10日

【AAAI2022】使用对比式量化表征学习的无监督图像检索方法

【AAAI2022】使用对比式量化表征学习的无监督图像检索方法

专知

3+阅读 · 2021年12月28日

【AAAI2022】混合课程学习对话情绪识别

【AAAI2022】混合课程学习对话情绪识别

专知

0+阅读 · 2021年12月24日

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

【AAAI2022】领域自适应的主动学习:一种基于能量的方法

专知

3+阅读 · 2021年12月6日

相关基金

连续时间马氏决策过程受约束问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

资源受限网络化控制系统协同设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

对流扩散最优控制问题的有限元算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂网络系统的有限时间同步控制研究

国家自然科学基金

0+阅读 · 2011年12月31日

虚拟人的连续运动控制研究

国家自然科学基金

2+阅读 · 2011年12月31日

相关论文

Adversarial Regularization as Stackelberg Game: An Unrolled Optimization Approach

Adversarial Regularization as Stackelberg Game: An Unrolled Optimization Approach

Arxiv

0+阅读 · 2022年4月20日

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics

Arxiv

1+阅读 · 2022年4月20日

Efficient Reinforcement Learning for Unsupervised Controlled Text Generation

Arxiv

0+阅读 · 2022年4月16日

Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning

Arxiv

0+阅读 · 2022年4月15日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员