基于模型的强化学习的博弈论框架 - 专知

会员服务 ·

0

基于模型的强化学习的博弈论框架

2020 年 4 月 21 日 专知

题目： A Game Theoretic Framework for Model Based Reinforcement Learning

摘要： 基于模型的强化学习(MBRL)最近获得了极大的兴趣，因为它具有潜在的样本效率和合并非策略数据的能力。然而，使用富函数逼近器设计稳定、高效的MBRL算法仍然具有挑战性。为了从抽象的角度揭示MBRL的实际挑战并简化算法设计，我们开发了一个新的框架，将MBRL描述为:(1)一个策略参与者，它试图在学习模型下最大化回报;(2)一个模型player，它试图与策略player收集的真实数据相匹配。在算法开发方面，我们构造了一个双方参与的Stackelberg博弈，并证明了它可以用近似的双层优化来解决。这就产生了两种自然的MBRL算法，基于这两种算法，玩家被选择为Stackelberg游戏的领导者。它们一起封装、统一和泛化了许多以前的MBRL算法。此外，我们的框架是一致的，并提供了一个明确的基础启发式已知是重要的实践，从以往的工作。最后，通过实验验证了所提出的算法具有较高的样本效率，匹配无模型策略梯度的渐近性能，并能扩展到灵巧手操作等高维任务。

https://arxiv.org/abs/2004.07804

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“MRLT” 就可以获取《基于模型的强化学习的博弈论框架》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

4

相关内容

基于模型的强化学习

基于模型的强化学习

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

121+阅读 · 2020年4月6日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

经典书《斯坦福大学-多智能体系统》532页pdf

经典书《斯坦福大学-多智能体系统》532页pdf

专知

121+阅读 · 2020年1月29日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

10+阅读 · 2019年9月27日

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

专知

22+阅读 · 2019年7月15日

PyTorch实现多种深度强化学习算法

PyTorch实现多种深度强化学习算法

专知

36+阅读 · 2019年1月15日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

37+阅读 · 2018年10月26日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【伯克利大学ICML2018强化学习80页教程】【附下载】

【伯克利大学ICML2018强化学习80页教程】【附下载】

专知

10+阅读 · 2018年7月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

End to end learning and optimization on graphs

Arxiv

7+阅读 · 2019年5月31日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

A Tour of Reinforcement Learning: The View from Continuous Control

Arxiv

6+阅读 · 2018年6月25日

A Study on Overfitting in Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年4月20日

Learning to Extract Coherent Summary via Deep Reinforcement Learning

Arxiv

6+阅读 · 2018年4月19日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

VIP会员

相关主题

基于模型的强化学习

相关VIP内容

【ICML2020】用于强化学习的对比无监督表示嵌入

【ICML2020】用于强化学习的对比无监督表示嵌入

专知会员服务

28+阅读 · 2020年7月6日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知会员服务

58+阅读 · 2020年5月26日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

生成式对抗网络(GANs)最新2020综述，41页pdf阐述GAN训练、挑战、解决方案和未来方向

专知会员服务

197+阅读 · 2020年5月14日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

121+阅读 · 2020年4月6日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

人机协同时代的军事指挥控制演进

《英国智库：瓦解俄罗斯防空系统生产，夺回制空权》最新报告

《通过仿真与开源数据提升战略决策：机遇与局限》最新报告

《战术突击工具包：军队的“边缘”操作系统》报告

相关资讯

经典书《斯坦福大学-多智能体系统》532页pdf

经典书《斯坦福大学-多智能体系统》532页pdf

专知

121+阅读 · 2020年1月29日

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

【斯坦福大学课程】深度多任务学习与元学习，CS 330: Deep Multi-Task and Meta Learning

专知

10+阅读 · 2019年9月27日

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

强化学习与决策：RLDM2019会议笔记 - 附65页笔记PDF

专知

22+阅读 · 2019年7月15日

PyTorch实现多种深度强化学习算法

PyTorch实现多种深度强化学习算法

专知

36+阅读 · 2019年1月15日

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

【强化学习】用于真实机器人的高效深度强化学习算法、全面解读深度强化学习

产业智能官

16+阅读 · 2018年12月27日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

【微软亚研130PPT教程】强化学习简介

【微软亚研130PPT教程】强化学习简介

专知

37+阅读 · 2018年10月26日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【伯克利大学ICML2018强化学习80页教程】【附下载】

【伯克利大学ICML2018强化学习80页教程】【附下载】

专知

10+阅读 · 2018年7月21日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

End to end learning and optimization on graphs

Arxiv

7+阅读 · 2019年5月31日

Hierarchical Meta Learning

Arxiv

9+阅读 · 2019年4月19日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

A Multi-Objective Deep Reinforcement Learning Framework

A Multi-Objective Deep Reinforcement Learning Framework

Arxiv

16+阅读 · 2018年6月27日

A Tour of Reinforcement Learning: The View from Continuous Control

Arxiv

6+阅读 · 2018年6月25日

A Study on Overfitting in Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年4月20日

Learning to Extract Coherent Summary via Deep Reinforcement Learning

Arxiv

6+阅读 · 2018年4月19日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

大家都在搜

大型语言模型

蓝牙安全攻防

【论文笔记】用于数据驱动交通预测的扩散卷积循环神经网络（DCRNN）

微信扫码咨询专知VIP会员