【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法 - 专知VIP

会员服务 ·

2

AAAI 2022 · 强化学习 · 基于模型的强化学习 · 论文 ·

2022 年 1 月 10 日

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基于模型的强化学习算法旨在学习环境模型，并通过环境模型做决策，其样本效率高于无模型算法。基于模型的方法的样本效率取决于模型能否很好地近似环境。然而，学习一个精确的模型是具有挑战性的，特别是在复杂和嘈杂的环境中。为了解决这个问题，MIRA Lab 提出了基于模型的保守 actor-critic 方法（conservative model-based actor-critic---CMBAC）。这是一种在不依赖精确学习模型的情况下实现了高样本效率的新方法。具体而言，CMBAC从一组不准确的模型中学习Q值函数的多个估计值，并使用其最小的k个估计值的均值（即保守估计值）来优化策略。CMBAC的保守估计能够有效地鼓励智能体避免不可靠的“有前景的动作”，即那些仅在一小部分模型中估计价值高的动作。实验结果表明，CMBAC方法在多个具有挑战性的控制任务上的样本效率明显优于现有的方法，并且该方法在噪声环境下比现有的方法更具鲁棒性。原论文标题为《Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic》，由王杰教授指导MIRA Lab 的王治海、周祺等人发表于AAAI 2022。

http://arxiv.org/abs/2112.10504

成为VIP会员查看完整内容

24

相关内容

AAAI 2022

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【ICML2021】基于数据采样的影响力最大化问题

专知会员服务

21+阅读 · 2021年8月1日

【ICML2021】基于离线模型有效优化的保守目标模型

专知会员服务

12+阅读 · 2021年7月16日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知会员服务

59+阅读 · 2020年12月9日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

47+阅读 · 2020年10月26日

【Aalto博士论文】高效样本近似贝叶斯计算的高斯过程代理方法，84页pdf

专知会员服务

35+阅读 · 2020年9月30日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

深度强化学习实验室

0+阅读 · 2022年3月1日

AAAI 2022 | 基于强化学习的视频弹幕攻击

AAAI 2022 | 基于强化学习的视频弹幕攻击

PaperWeekly

1+阅读 · 2022年1月11日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

PaperWeekly

2+阅读 · 2021年11月30日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

【重磅】61篇NIPS2019深度强化学习论文及部分解读

【重磅】61篇NIPS2019深度强化学习论文及部分解读

机器学习算法与Python学习

10+阅读 · 2019年9月14日

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

「元学习」解析：学习如何梯度下降与学习新的算法

「元学习」解析：学习如何梯度下降与学习新的算法

AI研习社

12+阅读 · 2018年5月1日

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

最优控制的快速算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于多智能体的GIS成矿预测模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂未建模系统的基于随机逼近的数据驱动控制研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于学习人类策略的动态稳定系统控制器切换方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于神经动态优化的一类伪凸优化问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的惯性导航系统初始对准方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics

Arxiv

1+阅读 · 2022年4月20日

Memory-Constrained Policy Optimization

Arxiv

0+阅读 · 2022年4月20日

Dynamic Approximate Maximum Independent Set on Massive Graphs

Arxiv

0+阅读 · 2022年4月18日

MetaKG: Meta-learning on Knowledge Graph for Cold-start Recommendation

Arxiv

0+阅读 · 2022年4月18日

Getting There and Back Again

Arxiv

0+阅读 · 2022年4月15日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

17+阅读 · 2019年10月30日

Learning to Propagate for Graph Meta-Learning

Arxiv

14+阅读 · 2019年9月11日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Dynamic Graph Neural Networks

Arxiv

24+阅读 · 2018年10月24日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

VIP会员

相关主题

基于模型的强化学习

相关VIP内容

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

【伯克利JD Co-Reyes博士论文】建立强化学习算法泛化:从潜在动力学模型到元学习，Building Reinforcement Learning Algorithms that Generalize: From Latent Dynamics Models to Meta-Learning

专知会员服务

45+阅读 · 2022年3月6日

【ICML2021】基于数据采样的影响力最大化问题

专知会员服务

21+阅读 · 2021年8月1日

【ICML2021】基于离线模型有效优化的保守目标模型

专知会员服务

12+阅读 · 2021年7月16日

CVPR2021 百度研究院 | 半监督迁移学习的自适应一致性正则化

专知会员服务

31+阅读 · 2021年3月20日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知会员服务

59+阅读 · 2020年12月9日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

47+阅读 · 2020年10月26日

【Aalto博士论文】高效样本近似贝叶斯计算的高斯过程代理方法，84页pdf

专知会员服务

35+阅读 · 2020年9月30日

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

【伯克利博士论文】如何让机器人多技能？通过最大熵强化学习(107页pdf)

专知会员服务

78+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL

深度强化学习实验室

0+阅读 · 2022年3月1日

AAAI 2022 | 基于强化学习的视频弹幕攻击

AAAI 2022 | 基于强化学习的视频弹幕攻击

PaperWeekly

1+阅读 · 2022年1月11日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

强化学习为何泛化如此困难？从认知POMDP、隐式部分可观察解读

PaperWeekly

2+阅读 · 2021年11月30日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

【重磅】61篇NIPS2019深度强化学习论文及部分解读

【重磅】61篇NIPS2019深度强化学习论文及部分解读

机器学习算法与Python学习

10+阅读 · 2019年9月14日

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

「元学习」解析：学习如何梯度下降与学习新的算法

「元学习」解析：学习如何梯度下降与学习新的算法

AI研习社

12+阅读 · 2018年5月1日

相关基金

基于3D稀疏表示的多模态神经导航关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

最优控制的快速算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于多智能体的GIS成矿预测模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

复杂未建模系统的基于随机逼近的数据驱动控制研究

国家自然科学基金

2+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于学习人类策略的动态稳定系统控制器切换方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于神经动态优化的一类伪凸优化问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的惯性导航系统初始对准方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics

Arxiv

1+阅读 · 2022年4月20日

Memory-Constrained Policy Optimization

Arxiv

0+阅读 · 2022年4月20日

Dynamic Approximate Maximum Independent Set on Massive Graphs

Arxiv

0+阅读 · 2022年4月18日

MetaKG: Meta-learning on Knowledge Graph for Cold-start Recommendation

Arxiv

0+阅读 · 2022年4月18日

Getting There and Back Again

Arxiv

0+阅读 · 2022年4月15日

Meta-Learning to Cluster

Meta-Learning to Cluster

Arxiv

17+阅读 · 2019年10月30日

Learning to Propagate for Graph Meta-Learning

Arxiv

14+阅读 · 2019年9月11日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

Dynamic Graph Neural Networks

Arxiv

24+阅读 · 2018年10月24日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

微信扫码咨询专知VIP会员