这是一门关于在不确定情况下强化学习(RL)和顺序决策的入门课程,重点在于理解理论基础。我们研究如何使用动态规划方法,如价值和策略迭代,来解决具有已知模型的顺序决策问题,以及如何扩展这些方法,以解决模型未知的强化学习问题。其他主题包括(但不限于)RL中的函数近似、策略梯度方法、基于模型的RL以及平衡探索-利用权衡。本课程将以讲座和阅读古典及近期论文的方式传授给学生。因为重点是理解基础,你应该期望通过数学细节和证明。本课程的要求背景包括熟悉概率论和统计、微积分、线性代数、最优化和(有监督的)机器学习。

https://amfarahmand.github.io/IntroRL/

目录内容:

  • Introduction to Reinforcement Learning
  • Structural Properties of Markov Decision Processes (Part I)
  • Structural Properties of Markov Decision Processes (Part II)
  • Planning with a Known Model
  • Learning from a Stream of Data (Part I)
  • Learning from a Stream of Data (Part II)
  • Value Function Approximation (Part I)
  • Value Function Approximation (Part II)
  • Value Function Approximation (Part III)
  • Value Function Approximation (Part IV)
  • Policy Gradient Methods
  • Model-based RL
  • Presentations

强化学习入门笔记

这是多伦多大学计算机科学系于2021年春季教授的强化学习(RL)研究生课程介绍的讲义。本课程是入门性的,因为它不需要预先接触强化学习。然而,它不仅仅是算法的集合。相反,它试图在RL中经常遇到的许多重要思想和概念背后建立数学直觉。在这些讲义的过程中,我证明了很多基础的,或者有时不那么基础的,RL的结果。如果某个结果的证明过于复杂,我就证明一个简化的版本。

强化学习(RL)既指一类问题,也指解决这类问题的一组计算方法。RL问题是指如何采取行动,使某些长期绩效的概念得到最大化。RL问题,从它的定义来看,是关于一个实体的行为和交互,我们称之为代理,与其周围的环境,我们称之为环境。这是一个非常普遍的目标。有人可能会说,解决AI问题等同于解决RL问题。强化学习也指解决RL问题的一套计算方法。一个代理需要做什么样的计算才能确保它的行为能够带来良好的(甚至是最佳的)长期性能?实现这些的方法称为RL方法。历史上,在所有试图解决RL问题的计算方法中,只有一个子集被称为RL方法。例如Q-Learning这样的方法(我们将在本课程中学习)是一种很好的RL方法,但是进化计算的方法,如遗传算法,则不是。人们可以争辩说,进化计算方法没有太多的“学习”成分,或者它们不以个体生命的时间尺度行事,而是以世代的时间尺度行事。虽然这些是真正的区别,但这种划分方式有些武断。在本课堂讲稿中,我们将重点放在“RL社区”中经常学习的方法上。

成为VIP会员查看完整内容
65

相关内容

【斯坦福经典书】机器学习导论,188页pdf
专知会员服务
77+阅读 · 2021年3月31日
专知会员服务
52+阅读 · 2020年12月24日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
108+阅读 · 2020年11月12日
专知会员服务
53+阅读 · 2020年10月11日
专知会员服务
52+阅读 · 2020年9月7日
强化学习——蒙特卡洛方法介绍
论智
12+阅读 · 2018年6月3日
多伦多大学“神经网络与机器学习导论(2018年春季)
人工智能头条
14+阅读 · 2018年4月3日
资源 | CMU统计机器学习2017春季课程:研究生水平
机器之心
14+阅读 · 2017年10月30日
Arxiv
0+阅读 · 2021年5月15日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
5+阅读 · 2020年10月21日
Frustratingly Simple Few-Shot Object Detection
Arxiv
3+阅读 · 2020年3月16日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
10+阅读 · 2017年12月29日
VIP会员
相关VIP内容
【斯坦福经典书】机器学习导论,188页pdf
专知会员服务
77+阅读 · 2021年3月31日
专知会员服务
52+阅读 · 2020年12月24日
【2020新书】概率机器学习,附212页pdf与slides
专知会员服务
108+阅读 · 2020年11月12日
专知会员服务
53+阅读 · 2020年10月11日
专知会员服务
52+阅读 · 2020年9月7日
相关论文
Arxiv
0+阅读 · 2021年5月15日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
5+阅读 · 2020年10月21日
Frustratingly Simple Few-Shot Object Detection
Arxiv
3+阅读 · 2020年3月16日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
10+阅读 · 2017年12月29日
微信扫码咨询专知VIP会员