【AAAI2022】受限评委下双执行者的高效连续控制 - 专知VIP

会员服务 ·

1

AAAI 2022 · 深度强化学习 · 论文 ·

2021 年 12 月 22 日

【AAAI2022】受限评委下双执行者的高效连续控制

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

《受限评委下双执行者的高效连续控制》（Efficient Continuous Control with Double Actors and Regularized Critics，作者：控制科学与工程专业2020级博士生吕加飞，导师：李秀）

值函数衡量了从当前的状态出发，采取动作后所能取得的未来累计折扣奖励值。值函数估计问题是强化学习（Reinforcement Learning），尤其是深度强化学习中非常重要的一个问题。对于值函数的准确估计可以使得策略网络向着准确可靠的方向优化。现有的一些值函数估计的经典算法，比如DDPG、TD3等，都或多或少会对值函数进行高估（overestimation）或者低估（underestimation）。近年来的一些方法大多都集中于增强或者改进double critics架构，而长时间忽略了double actors的作用和优点。基于此，作者使用double actors进行值函数修正以获得更好的探索能力和更好的值函数估计，同时对critic网络进行约束以减小值函数估计的不确定度。

https://www.zhuanzhi.ai/paper/064ad32006247d4c1c8dc84b8c3fec1c

成为VIP会员查看完整内容

17

相关内容

AAAI 2022

【AAAI2022】锚框排序知识蒸馏的目标检测

【AAAI2022】锚框排序知识蒸馏的目标检测

专知会员服务

26+阅读 · 2022年2月10日

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知会员服务

72+阅读 · 2022年2月9日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知会员服务

35+阅读 · 2022年1月31日

【ICML2021】粒子流RNN的概率时空预测

专知会员服务

21+阅读 · 2021年8月31日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【KDD2020】百度地图上用于估计旅行时间的上下文时空图注意网络

专知会员服务

23+阅读 · 2020年10月19日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

KDD20 | 百度地图上用于估计旅行时间的上下文时空图注意网络

KDD20 | 百度地图上用于估计旅行时间的上下文时空图注意网络

图与推荐

4+阅读 · 2020年10月25日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

18+阅读 · 2020年8月11日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

CVPR & AAAI 2020 | 人脸活体检测最新进展

CVPR & AAAI 2020 | 人脸活体检测最新进展

CVer

4+阅读 · 2020年3月20日

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

AI科技评论

4+阅读 · 2019年6月11日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

除了DQN/A3C，还有哪些高级强化学习成果

除了DQN/A3C，还有哪些高级强化学习成果

论智

15+阅读 · 2018年10月28日

【泡泡图灵智库】一种用于快速自主飞行且非常鲁棒的双目视觉惯性里程计方法（ICRA-39）

【泡泡图灵智库】一种用于快速自主飞行且非常鲁棒的双目视觉惯性里程计方法（ICRA-39）

泡泡机器人SLAM

7+阅读 · 2018年9月3日

为你分享73篇论文解决深度强化学习的18个关键问题

为你分享73篇论文解决深度强化学习的18个关键问题

数据派THU

7+阅读 · 2017年12月26日

Robust random walk-like Metropolis-Hastings algorithms for concentrating posteriors

Arxiv

0+阅读 · 2022年2月24日

Analysis of a Target-Based Actor-Critic Algorithm with Linear Function Approximation

Arxiv

0+阅读 · 2022年2月22日

Approximate gradient ascent methods for distortion risk measures

Approximate gradient ascent methods for distortion risk measures

Arxiv

0+阅读 · 2022年2月22日

Cellular Network Capacity and Coverage Enhancement with MDT Data and Deep Reinforcement Learning

Arxiv

0+阅读 · 2022年2月22日

Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization

Arxiv

13+阅读 · 2021年12月20日

GFlowNet Foundations

GFlowNet Foundations

Arxiv

9+阅读 · 2021年11月17日

Efficient Continuous Control with Double Actors and Regularized Critics

Arxiv

6+阅读 · 2021年6月6日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Arxiv

3+阅读 · 2018年7月16日

ADMM-based Networked Stochastic Variational Inference

Arxiv

3+阅读 · 2018年2月27日

VIP会员

相关主题

深度强化学习

相关VIP内容

【AAAI2022】锚框排序知识蒸馏的目标检测

【AAAI2022】锚框排序知识蒸馏的目标检测

专知会员服务

26+阅读 · 2022年2月10日

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知会员服务

72+阅读 · 2022年2月9日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知会员服务

35+阅读 · 2022年1月31日

【ICML2021】粒子流RNN的概率时空预测

专知会员服务

21+阅读 · 2021年8月31日

【ICML2021】授权驱动探索的元强化学习

专知会员服务

28+阅读 · 2021年5月24日

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

【AAAI2021最佳论文】基于高效 Transformer 的长时间序列预测

专知会员服务

62+阅读 · 2021年2月6日

【AAAI2021】层次图胶囊网络

【AAAI2021】层次图胶囊网络

专知会员服务

84+阅读 · 2020年12月18日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【KDD2020】百度地图上用于估计旅行时间的上下文时空图注意网络

专知会员服务

23+阅读 · 2020年10月19日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

KDD20 | 百度地图上用于估计旅行时间的上下文时空图注意网络

KDD20 | 百度地图上用于估计旅行时间的上下文时空图注意网络

图与推荐

4+阅读 · 2020年10月25日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

18+阅读 · 2020年8月11日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

CVPR & AAAI 2020 | 人脸活体检测最新进展

CVPR & AAAI 2020 | 人脸活体检测最新进展

CVer

4+阅读 · 2020年3月20日

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

CVPR 2019 | 智能体张量融合，一种保持空间结构信息的轨迹预测

AI科技评论

4+阅读 · 2019年6月11日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

除了DQN/A3C，还有哪些高级强化学习成果

除了DQN/A3C，还有哪些高级强化学习成果

论智

15+阅读 · 2018年10月28日

【泡泡图灵智库】一种用于快速自主飞行且非常鲁棒的双目视觉惯性里程计方法（ICRA-39）

【泡泡图灵智库】一种用于快速自主飞行且非常鲁棒的双目视觉惯性里程计方法（ICRA-39）

泡泡机器人SLAM

7+阅读 · 2018年9月3日

为你分享73篇论文解决深度强化学习的18个关键问题

为你分享73篇论文解决深度强化学习的18个关键问题

数据派THU

7+阅读 · 2017年12月26日

相关论文

Robust random walk-like Metropolis-Hastings algorithms for concentrating posteriors

Arxiv

0+阅读 · 2022年2月24日

Analysis of a Target-Based Actor-Critic Algorithm with Linear Function Approximation

Arxiv

0+阅读 · 2022年2月22日

Approximate gradient ascent methods for distortion risk measures

Approximate gradient ascent methods for distortion risk measures

Arxiv

0+阅读 · 2022年2月22日

Cellular Network Capacity and Coverage Enhancement with MDT Data and Deep Reinforcement Learning

Arxiv

0+阅读 · 2022年2月22日

Learning Robust Policy against Disturbance in Transition Dynamics via State-Conservative Policy Optimization

Arxiv

13+阅读 · 2021年12月20日

GFlowNet Foundations

GFlowNet Foundations

Arxiv

9+阅读 · 2021年11月17日

Efficient Continuous Control with Double Actors and Regularized Critics

Arxiv

6+阅读 · 2021年6月6日

Few-shot acoustic event detection via meta-learning

Arxiv

26+阅读 · 2020年2月21日

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Bipedal Walking Robot using Deep Deterministic Policy Gradient

Arxiv

3+阅读 · 2018年7月16日

ADMM-based Networked Stochastic Variational Inference

Arxiv

3+阅读 · 2018年2月27日

微信扫码咨询专知VIP会员