基于模型的强化学习的博弈论框架

2020 年 4 月 21 日 专知


题目: A Game Theoretic Framework for Model Based Reinforcement Learning

摘要: 基于模型的强化学习(MBRL)最近获得了极大的兴趣,因为它具有潜在的样本效率和合并非策略数据的能力。然而,使用富函数逼近器设计稳定、高效的MBRL算法仍然具有挑战性。为了从抽象的角度揭示MBRL的实际挑战并简化算法设计,我们开发了一个新的框架,将MBRL描述为:(1)一个策略参与者,它试图在学习模型下最大化回报;(2)一个模型player,它试图与策略player收集的真实数据相匹配。在算法开发方面,我们构造了一个双方参与的Stackelberg博弈,并证明了它可以用近似的双层优化来解决。这就产生了两种自然的MBRL算法,基于这两种算法,玩家被选择为Stackelberg游戏的领导者。它们一起封装、统一和泛化了许多以前的MBRL算法。此外,我们的框架是一致的,并提供了一个明确的基础启发式已知是重要的实践,从以往的工作。最后,通过实验验证了所提出的算法具有较高的样本效率,匹配无模型策略梯度的渐近性能,并能扩展到灵巧手操作等高维任务。

https://arxiv.org/abs/2004.07804



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MRLT” 就可以获取基于模型的强化学习的博弈论框架》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
3

相关内容

【ICML2020】用于强化学习的对比无监督表示嵌入
专知会员服务
27+阅读 · 2020年7月6日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
46+阅读 · 2020年1月23日
经典书《斯坦福大学-多智能体系统》532页pdf
PyTorch实现多种深度强化学习算法
专知
36+阅读 · 2019年1月15日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【微软亚研130PPT教程】强化学习简介
专知
36+阅读 · 2018年10月26日
【强化学习】强化学习+深度学习=人工智能
产业智能官
53+阅读 · 2017年8月11日
Arxiv
7+阅读 · 2019年5月31日
Arxiv
9+阅读 · 2019年4月19日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
A Multi-Objective Deep Reinforcement Learning Framework
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员