【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法 - 专知

会员服务 ·

0

【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法

2022 年 1 月 10 日 专知

基于模型的强化学习算法旨在学习环境模型，并通过环境模型做决策，其样本效率高于无模型算法。基于模型的方法的样本效率取决于模型能否很好地近似环境。然而，学习一个精确的模型是具有挑战性的，特别是在复杂和嘈杂的环境中。为了解决这个问题，MIRA Lab 提出了基于模型的保守 actor-critic 方法（conservative model-based actor-critic---CMBAC）。这是一种在不依赖精确学习模型的情况下实现了高样本效率的新方法。具体而言，CMBAC从一组不准确的模型中学习Q值函数的多个估计值，并使用其最小的k个估计值的均值（即保守估计值）来优化策略。CMBAC的保守估计能够有效地鼓励智能体避免不可靠的“有前景的动作”，即那些仅在一小部分模型中估计价值高的动作。实验结果表明，CMBAC方法在多个具有挑战性的控制任务上的样本效率明显优于现有的方法，并且该方法在噪声环境下比现有的方法更具鲁棒性。原论文标题为《Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic》，由王杰教授指导MIRA Lab 的王治海、周祺等人发表于AAAI 2022。

http://arxiv.org/abs/2112.10504

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DCLF” 就可以获取《【AAAI2022】对偶对比学习在人脸伪造检测中的应用》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，查看本篇文档专知下载

登录查看更多

1

相关内容

评论员

【ICML2021】基于离线模型有效优化的保守目标模型

专知会员服务

12+阅读 · 2021年7月16日

【WWW2021】神经公平协同过滤的去偏职业推荐

【WWW2021】神经公平协同过滤的去偏职业推荐

专知会员服务

22+阅读 · 2021年3月18日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

【CVPR2022】通过特征Mixing进行主动学习

【CVPR2022】通过特征Mixing进行主动学习

专知

0+阅读 · 2022年3月15日

【WWW2021】神经公平协同过滤的去偏见职业推荐

【WWW2021】神经公平协同过滤的去偏见职业推荐

专知

1+阅读 · 2021年4月7日

【WWW2021】神经公平协同过滤的去偏职业推荐

【WWW2021】神经公平协同过滤的去偏职业推荐

专知

0+阅读 · 2021年3月18日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

基于多智能体的GIS成矿预测模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于策略迭代算法的随机Markov跳变系统优化控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的惯性导航系统初始对准方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Getting There and Back Again

Arxiv

0+阅读 · 2022年4月15日

Generalizing to Unseen Domains: A Survey on Domain Generalization

Arxiv

30+阅读 · 2021年3月10日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

VIP会员

相关主题

基于模型的强化学习

相关VIP内容

【ICML2021】基于离线模型有效优化的保守目标模型

专知会员服务

12+阅读 · 2021年7月16日

【WWW2021】神经公平协同过滤的去偏职业推荐

【WWW2021】神经公平协同过滤的去偏职业推荐

专知会员服务

22+阅读 · 2021年3月18日

【AAAI2021】Lipschitz终身强化学习

专知会员服务

31+阅读 · 2020年12月14日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

【ICML2020】强化学习中基于模型的方法，279页ppt

【ICML2020】强化学习中基于模型的方法，279页ppt

专知会员服务

48+阅读 · 2020年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

【CVPR2022】通过特征Mixing进行主动学习

【CVPR2022】通过特征Mixing进行主动学习

专知

0+阅读 · 2022年3月15日

【WWW2021】神经公平协同过滤的去偏见职业推荐

【WWW2021】神经公平协同过滤的去偏见职业推荐

专知

1+阅读 · 2021年4月7日

【WWW2021】神经公平协同过滤的去偏职业推荐

【WWW2021】神经公平协同过滤的去偏职业推荐

专知

0+阅读 · 2021年3月18日

【CVPR2021】半监督迁移学习的自适应一致性正则化

【CVPR2021】半监督迁移学习的自适应一致性正则化

专知

41+阅读 · 2021年3月7日

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

相关基金

基于多智能体的GIS成矿预测模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

基于策略迭代算法的随机Markov跳变系统优化控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的惯性导航系统初始对准方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

相关论文

Getting There and Back Again

Arxiv

0+阅读 · 2022年4月15日

Generalizing to Unseen Domains: A Survey on Domain Generalization

Arxiv

30+阅读 · 2021年3月10日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

Learning over Knowledge-Base Embeddings for Recommendation

Arxiv

23+阅读 · 2018年3月22日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员