这门课程从零开始、从数学角度、结合大量例子、循序渐进地揭示强化学习的本质原理。 如果你学习的时候喜欢刨根问底、追求“知其然并知其所以然”,相信这个课程能很好地帮助你透彻理解强化学习!


经过漫长的准备过程,【强化学习的数学原理】这个课程的视频+书籍+PPT终于都上线了!下面是链接:

课程视频合集(B站)

https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.999.0.0&vd_source=288648f5b920459d12ebbcfd2da00a19 1. 书籍PDF和PPT下载网址(GitHub)

https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

书籍《强化学习的数学原理》介绍(知乎)

https://zhuanlan.zhihu.com/p/552853273

1. 开发这个课程的初衷

1)从我2019年第一次在西湖大学讲授强化学习的课程,到现在已经是第四次了。在这个过程中,得到了大量的反馈、积累了许多的经验,最终形成了现在的内容和书籍。 2)强化学习入门难吗?即使你有机器学习或者深度学习的基础,即使你有自动控制理论的基础,想要入门强化学习并非易事! 3)虽然现在关于强化学习的资料有很多,我个人感觉现有的书籍要么倾向于直观解释(例如Sutton和Barto的书),要么数学和专业性过强(例如Bertsekas的书)。 4)我开发这门课的目的:一方面,从数学的角度去介绍强化学习,让读者“知其然也知其所以然;另一方面,对零基础初学者友好,从最基本的概念开始、生动易懂、循序渐进。

2. 这个课程是否适合你?

这个课程融入了我很多的心思,和很多其它中英文课程有较大不同。你可以看看这门课是否适合你。 1)这门课不要求读者有任何强化学习的背景知识。因为它会从最基本的概念开始介绍,配上丰富的例子,相信它能在让你“快速”入门的同时也能明了许多概念算法的原理。如果读者已经有了一定的强化学习背景,相信它也能给你带来新的理解。 2)这门课从数学角度介绍强化学习,从而帮助读者“知其然更知其所以然”。强化学习的数学性较强,如果不讲数学,很多时候看似懂了但经不起推敲。相反,如果从数学角度开始学习,看似是笨办法,实则是透彻理解强化学习的捷径。我也相信许多读者也有过这样的体会:千言万语的文字描述有时候比不上一个数学公式能让人理解深刻。 3)本书更多关注“原理”而不是“编程”,帮助大家透彻理解概念和算法的原理。如果大家对编程实现感兴趣,可以参考很多已有的精彩的学习资料,这里就不再重复造轮子了。

3. 课程内容概览

强化学习的系统性也很强,许多概念一环扣一环。要想深入地理解强化学习,要从最基础的概念出发,一点一滴的学习。 下图是整个课程的“地图”,也是我的书中的一幅插图,展示了各个部分及其之间的关系。

4. 作者简介

赵世钰是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室负责人、国家海外高层次人才引进计划(青年项目)获得者。他本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院,回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师。更多信息请参见实验室网站https://shiyuzhao.westlake.edu.cn或者个人网页。www.shiyuzhao.net(GoogleSite)

5. 写在最后

在准备这些材料的过程中,真正体会到了什么是呕心沥血。 从这本书里的每一句话、每一个图、每一个公式,到课程视频的剪辑、字幕的制作、再到PPT的制作、甚至设计护眼背景色等等细节,力求让同学们能有最好的学习体验。在这个过程中要感谢我的许多学生的给力帮助。 希望这门课程能够真正的帮助大家跨过强化学习的门槛,进入到这个有趣而生机勃勃的领域!

附:本课程相关资料汇总

课程视频网址(B站)

https://space.bilibili.com/2044042934

书籍PDF和PPT下载网址(GitHub)

https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

书籍的介绍(知乎)

https://zhuanlan.zhihu.com/p/552853273

课程的介绍(B站)

https://www.bilibili.com/read/cv18745978?spm_id_from=333.999.0.0

赵世钰老师简介:

西湖大学实验室网站 * https://shiyuzhao.westlake.edu.cn/ * 个人网页(GoogleSite) * https://www.shiyuzhao.net/

成为VIP会员查看完整内容
154

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
通俗易懂!MIT《深度强化学习》课程,附Slides与视频
专知会员服务
66+阅读 · 2022年4月24日
李宏毅《机器学习》国语课程(2022)来了!附Slides和视频!
专知会员服务
102+阅读 · 2022年2月28日
【2022新书】经典与量子计算导论,392页pdf
专知会员服务
70+阅读 · 2022年1月17日
专知会员服务
68+阅读 · 2021年7月10日
入门强化学习,初学者值得一看!
学术头条
3+阅读 · 2021年12月19日
Python机器学习课程(代码与教程)
专知
35+阅读 · 2019年5月13日
那些值得推荐和收藏的线性代数学习资源
Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)
专知
15+阅读 · 2018年1月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
Arxiv
15+阅读 · 2022年6月14日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
A Multi-Objective Deep Reinforcement Learning Framework
Arxiv
13+阅读 · 2018年1月20日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
4+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员