基于模型的强化学习算法旨在学习环境模型,并通过环境模型做决策,其样本效率高于无模型算法。基于模型的方法的样本效率取决于模型能否很好地近似环境。然而,学习一个精确的模型是具有挑战性的,特别是在复杂和嘈杂的环境中。为了解决这个问题,MIRA Lab 提出了基于模型的保守 actor-critic 方法(conservative model-based actor-critic---CMBAC)。这是一种在不依赖精确学习模型的情况下实现了高样本效率的新方法。具体而言,CMBAC从一组不准确的模型中学习Q值函数的多个估计值,并使用其最小的k个估计值的均值(即保守估计值)来优化策略。CMBAC的保守估计能够有效地鼓励智能体避免不可靠的“有前景的动作”,即那些仅在一小部分模型中估计价值高的动作。实验结果表明,CMBAC方法在多个具有挑战性的控制任务上的样本效率明显优于现有的方法,并且该方法在噪声环境下比现有的方法更具鲁棒性。原论文标题为《Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic》,由王杰教授指导MIRA Lab 的王治海、周祺等人发表于AAAI 2022。

http://arxiv.org/abs/2112.10504

成为VIP会员查看完整内容
23

相关内容

专知会员服务
20+阅读 · 2021年8月1日
专知会员服务
11+阅读 · 2021年7月16日
【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战,80页ppt
专知会员服务
16+阅读 · 2020年12月4日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
45+阅读 · 2020年10月26日
【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL
深度强化学习实验室
0+阅读 · 2022年3月1日
AAAI 2022 | 基于强化学习的视频弹幕攻击
PaperWeekly
1+阅读 · 2022年1月11日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
机器学习算法与Python学习
10+阅读 · 2019年9月14日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
53+阅读 · 2019年7月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月15日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
14+阅读 · 2019年9月11日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
24+阅读 · 2018年10月24日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关资讯
【论文分享】ICLR2022 HyperDQN: A Randomized Exploration for Deep RL
深度强化学习实验室
0+阅读 · 2022年3月1日
AAAI 2022 | 基于强化学习的视频弹幕攻击
PaperWeekly
1+阅读 · 2022年1月11日
基于自监督的可逆性强化学习方法
AI前线
4+阅读 · 2021年12月3日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
【重磅】61篇NIPS2019深度强化学习论文及部分解读
机器学习算法与Python学习
10+阅读 · 2019年9月14日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
53+阅读 · 2019年7月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
13+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月15日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
14+阅读 · 2019年9月11日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
24+阅读 · 2018年10月24日
A Multi-Objective Deep Reinforcement Learning Framework
微信扫码咨询专知VIP会员