该系列课程由DeepMind研究人员教授,与伦敦大学学院(UCL)合作创建,为学生提供现代强化学习的全面介绍。

本课程包括13个讲座,该系列涵盖了基础的强化学习和规划的序列决策问题,在进入更高级的主题和现代深度RL算法之前。它让学生详细了解各种主题,包括马尔可夫决策过程,基于样本的学习算法(如(双)Q-learning, SARSA),深度强化学习,等等。它还探索了更高级的主题,如非策略学习、多步骤更新和资格跟踪,以及在实现深度强化学习算法(如彩虹DQN)时的概念和实际考虑。

DeepMind研究科学家和工程师Hado van Hasselt, Diana Borsa和Matteo Hessel领导了一份针对硕士以上学生的关于RL和深度RL的13部分独立介绍。

第1讲: 强化学习的介绍

研究科学家Hado van Hasselt介绍了强化学习课程,并解释了强化学习与人工智能的关系。

第二讲: 探索与控制

研究科学家哈多·范·哈塞尔特(Hado van Hasselt)探讨了为什么学习主体同时平衡探索和利用已获得的知识很重要。

第三讲: MDPs与动态规划

研究科学家Diana Borsa解释了如何用动态规划解决MDPs,以提取准确的预测和良好的控制策略。

第4讲: 动态规划算法的理论基础

研究科学家Diana Borsa将动态规划算法作为收缩映射进行研究,观察它们何时以及如何收敛到正确的解。

第五讲:无模型预测

研究科学家Hado van Hasselt对无模型预测及其与蒙特卡罗和时域差分算法的关系进行了更深入的研究。

第6讲:无模型控制

研究科学家Hado van Hasselt研究了策略改进的预测算法,从而产生了可以从抽样经验中学习良好行为策略的算法。

第7讲:函数近似

研究科学家Hado van Hasselt解释了如何将深度学习与强化学习相结合,以实现“深度强化学习”。

第8讲: 规划与模型

研究工程师Matteo Hessel解释了如何学习和使用模型,包括像Dyna和蒙特卡罗树搜索(MCTS)这样的算法。

第9讲: 策略梯度和Actor-Critic方法

研究科学家Hado van Hasselt涵盖了可以直接学习策略的策略算法和结合价值预测以更有效学习的Actor-Critic算法。

第10讲: 近似动态规划

研究科学家Diana Borsa介绍了近似动态规划,探讨了我们可以从理论上说的近似算法的性能。

第11讲: 多步骤和间歇策略

研究科学家Hado van Hasselt讨论了多步和离线策略算法,包括各种减少方差的技术。

第12讲: 深度强化学习#1

研究工程师Matteo Hessel讨论了深度RL的实际考虑和算法,包括如何使用自区分(即Jax)实现这些。

第13讲: 深度强化学习#2

研究工程师Matteo Hessel介绍了作为辅助任务的一般值函数和GVFs,并解释了如何处理算法中的可扩展问题。

成为VIP会员查看完整内容
0
32

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

要实现人工智能的梦想,就需要学会做出正确决策的自主系统。强化学习是这样做的一个强大范式,它与大量的任务相关,包括机器人、游戏、消费者建模和医疗保健。本课程将提供强化学习领域的充实介绍,学生将学习强化学习的核心挑战和方法,包括推广和探索。通过讲课、书面作业和编码作业的结合,学生将学习RL的关键思想和技术。作业将包括强化学习的基础知识以及深度强化学习——一个结合了深度学习技术和强化学习的极具前景的新领域。

地址: https://web.stanford.edu/class/cs234/

学生能够学习到:

  • 定义强化学习与人工智能和非交互式机器学习的区别的关键特征。
  • 给定一个应用问题(例如,计算机视觉,机器人等),决定它是否应该被表述为RL问题;如果是,可以正- 式定义它(根据状态空间,行动空间,动态和奖励模型),说明什么算法(从类)是最适合解决它,并证明你的答案。
  • 在代码中实现通用的RL算法。
  • 描述(列出和定义)分析RL算法的多种标准,并根据这些指标评估算法:例如遗憾度、样本复杂度、计算复杂度、经验性能、收敛性等。
  • 描述探索与开发的挑战,并对至少两种解决这一挑战的方法进行比较和对比(从性能、可伸缩性、实现的复杂性和理论保证方面)。

内容目录:

  • Introduction to Reinforcement Learning
  • Tabular MDP planning
  • Tabular RL policy evaluation
  • Q-learning
  • RL with function approximation
  • Policy search
  • Exploration
  • Exploration / Exploitation
  • Batch Reinforcement Learning
  • Monte Carlo Tree Search
成为VIP会员查看完整内容
0
44

现代人工智能(AI)系统通常需要在一个未知的、不确定的、可能敌对的环境中,通过积极地与环境交互来收集相关数据,从而做出连续的决策。强化学习(RL)是一个通用框架,可以捕获交互式学习设置,并已被用于设计智能代理,以实现超人水平的表现,在具有挑战性的任务,如围棋,电脑游戏,机器人操作。

这门研究生水平的课程着重于强化学习的理论和算法基础。本课程的四个主题为: (1)可证明有效的探索; (2)策略优化(特别是策略梯度); (3)控制; (4)模仿学习。

通过本课程,学生将能够理解经典的和最新的可证明正确的RL算法及其分析。学生将能够对与RL相关的课题进行研究。

成为VIP会员查看完整内容
0
47
小贴士
相关VIP内容
相关论文
Sarah Rathnam,Susan A. Murphy,Finale Doshi-Velez
0+阅读 · 9月16日
Marios Constantinides,Sanja Šćepanović,Daniele Quercia,Hongwei Li,Ugo Sassi,Michael Eggleston
0+阅读 · 9月13日
Denys Dutykh,Jean-Louis Verger-Gaugry
0+阅读 · 9月10日
Jiahui Li,Kun Kuang,Baoxiang Wang,Furui Liu,Long Chen,Fei Wu,Jun Xiao
6+阅读 · 6月22日
The StarCraft Multi-Agent Challenge
Mikayel Samvelyan,Tabish Rashid,Christian Schroeder de Witt,Gregory Farquhar,Nantas Nardelli,Tim G. J. Rudner,Chia-Man Hung,Philip H. S. Torr,Jakob Foerster,Shimon Whiteson
3+阅读 · 2019年2月11日
Generalization and Regularization in DQN
Jesse Farebrother,Marlos C. Machado,Michael Bowling
5+阅读 · 2019年1月30日
Tuomas Haarnoja,Aurick Zhou,Sehoon Ha,Jie Tan,George Tucker,Sergey Levine
5+阅读 · 2018年12月26日
Large-Scale Study of Curiosity-Driven Learning
Yuri Burda,Harri Edwards,Deepak Pathak,Amos Storkey,Trevor Darrell,Alexei A. Efros
7+阅读 · 2018年8月13日
Vinicius Zambaldi,David Raposo,Adam Santoro,Victor Bapst,Yujia Li,Igor Babuschkin,Karl Tuyls,David Reichert,Timothy Lillicrap,Edward Lockhart,Murray Shanahan,Victoria Langston,Razvan Pascanu,Matthew Botvinick,Oriol Vinyals,Peter Battaglia
4+阅读 · 2018年6月5日
Top