【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

2022 年 1 月 10 日 专知


基于模型的强化学习算法旨在学习环境模型,并通过环境模型做决策,其样本效率高于无模型算法。基于模型的方法的样本效率取决于模型能否很好地近似环境。然而,学习一个精确的模型是具有挑战性的,特别是在复杂和嘈杂的环境中。为了解决这个问题,MIRA Lab 提出了基于模型的保守 actor-critic 方法(conservative model-based actor-critic---CMBAC)。这是一种在不依赖精确学习模型的情况下实现了高样本效率的新方法。具体而言,CMBAC从一组不准确的模型中学习Q值函数的多个估计值,并使用其最小的k个估计值的均值(即保守估计值)来优化策略。CMBAC的保守估计能够有效地鼓励智能体避免不可靠的“有前景的动作”,即那些仅在一小部分模型中估计价值高的动作。实验结果表明,CMBAC方法在多个具有挑战性的控制任务上的样本效率明显优于现有的方法,并且该方法在噪声环境下比现有的方法更具鲁棒性。原论文标题为《Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic》,由王杰教授指导MIRA Lab 的王治海、周祺等人发表于AAAI 2022。


http://arxiv.org/abs/2112.10504





专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DCLF” 就可以获取《【AAAI2022】对偶对比学习在人脸伪造检测中的应用》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,查看本篇文档专知下载
登录查看更多
1

相关内容

专知会员服务
11+阅读 · 2021年7月16日
专知会员服务
18+阅读 · 2021年4月7日
【WWW2021】神经公平协同过滤的去偏职业推荐
专知会员服务
21+阅读 · 2021年3月18日
专知会员服务
29+阅读 · 2020年12月14日
专知会员服务
16+阅读 · 2020年12月4日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
46+阅读 · 2020年10月26日
【CVPR2022】多机器人协同主动建图算法
专知
0+阅读 · 2022年4月3日
【CVPR2022】通过特征Mixing进行主动学习
专知
0+阅读 · 2022年3月15日
最前沿:深度解读Soft Actor-Critic 算法
极市平台
54+阅读 · 2019年7月28日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月15日
Efficiently Embedding Dynamic Knowledge Graphs
Arxiv
14+阅读 · 2019年10月15日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
相关论文
Top
微信扫码咨询专知VIP会员