强化学习算法被广泛的认为可以分为两大类:无模型(Model-Free)的算法和基于模型(Model-Based)的算法。无模型的算法在过去一段时间在许多任务中已经取得了巨大的进步,这包括了机器人,视频游戏等。尽管这类算法取得了巨大的成功,但是由于其较高的采样复杂度,即需要与测试任务和环境进行大量的交互,生成样本,从而学习得到效果较好的策略,这使得无模型的强化学习算法难以应用到大量的实际场景问题中,而仅仅应用在具有仿真环境的问题当中。

而通过学习一个近似环境的参数化的模型(Model),进而进一步帮助策略的学习的这类算法,被称为基于模型的算法,使得其相比无模型算法可以大大降低采样复杂度。本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深度方法。MBRL方法利用环境模型来做决策——而不是将环境看作一个黑箱——并且提供了超越无模型RL的独特机会和挑战。我们将讨论学习过渡和奖励模式的方法,如何有效地使用这些模式来做出更好的决策,以及计划和学习之间的关系。我们还强调了在典型的RL设置之外。

成为VIP会员查看完整内容
87

相关内容

【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
45+阅读 · 2020年10月26日
最新《深度强化学习中的迁移学习》综述论文
专知会员服务
153+阅读 · 2020年9月20日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
126+阅读 · 2020年7月20日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
129+阅读 · 2020年5月14日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
解耦强化学习的值函数学习
CreateAMind
6+阅读 · 2019年9月5日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
Arxiv
0+阅读 · 2021年3月5日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Image Captioning based on Deep Reinforcement Learning
Arxiv
5+阅读 · 2018年6月12日
Arxiv
5+阅读 · 2018年6月5日
VIP会员
相关资讯
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
强化学习扫盲贴:从Q-learning到DQN
夕小瑶的卖萌屋
52+阅读 · 2019年10月13日
解耦强化学习的值函数学习
CreateAMind
6+阅读 · 2019年9月5日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
深度强化学习的弱点和局限
论智
6+阅读 · 2018年2月27日
微信扫码咨询专知VIP会员