本教程对基于模型的强化学习(MBRL)领域进行了广泛的概述,特别强调了深度方法。MBRL方法利用环境模型来进行决策——而不是将环境视为一个黑箱——并且提供了超越无模型RL的独特机会和挑战。我们将讨论学习过渡和奖励模式的方法,如何有效地使用这些模式来做出更好的决策,以及规划和学习之间的关系。我们还强调了在典型的RL设置之外利用世界模型的方式,以及在设计未来的MBRL系统时,从人类认知中可以得到什么启示。

https://sites.google.com/view/mbrl-tutorial

近年来,强化学习领域取得了令人印象深刻的成果,但主要集中在无模型方法上。然而,社区认识到纯无模型方法的局限性,从高样本复杂性、需要对不安全的结果进行抽样,到稳定性和再现性问题。相比之下,尽管基于模型的方法在机器人、工程、认知和神经科学等领域具有很大的影响力,但在机器学习社区中,这些方法的开发还不够充分(但发展迅速)。它们提供了一系列独特的优势和挑战,以及互补的数学工具。本教程的目的是使基于模型的方法更被机器学习社区所认可和接受。鉴于最近基于模型的规划的成功应用,如AlphaGo,我们认为对这一主题的全面理解是非常及时的需求。在教程结束时,观众应该获得:

  • 数学背景,阅读并跟进相关文献。
  • 对所涉及的算法有直观的理解(并能够访问他们可以使用和试验的轻量级示例代码)。
  • 在应用基于模型的方法时所涉及到的权衡和挑战。
  • 对可以应用基于模型的推理的问题的多样性的认识。
  • 理解这些方法如何适应更广泛的强化学习和决策理论,以及与无模型方法的关系。
成为VIP会员查看完整内容
123

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
110+阅读 · 2020年8月15日
【DeepMind】强化学习教程,83页ppt
专知会员服务
149+阅读 · 2020年8月7日
【ICML2020】机器学习无参数在线优化,294页ppt
专知会员服务
54+阅读 · 2020年8月1日
《强化学习》简介小册,24页pdf
专知会员服务
265+阅读 · 2020年4月19日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
177+阅读 · 2020年2月1日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
Arxiv
7+阅读 · 2019年4月8日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
【ICML2020Tutorial】机器学习信号处理,100页ppt
专知会员服务
110+阅读 · 2020年8月15日
【DeepMind】强化学习教程,83页ppt
专知会员服务
149+阅读 · 2020年8月7日
【ICML2020】机器学习无参数在线优化,294页ppt
专知会员服务
54+阅读 · 2020年8月1日
《强化学习》简介小册,24页pdf
专知会员服务
265+阅读 · 2020年4月19日
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
102+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
177+阅读 · 2020年2月1日
微信扫码咨询专知VIP会员