本文作者:西湖大学工学院特聘研究员--赵世钰老师
排版:OpenDeepRL
强化学习在近些年得到了越来越多的关注。虽然现在关于强化学习的资料有很多,但是许多读者仍然觉得强化学习入门比较困难,许多时候有一种似懂非懂或者 “知其然而不知其所以然”的感觉。甚至一些读者认为强化学习是一个黑盒子,很多东西数学上是解释不清的,这其实是一种误解。事实上,强化学习有很强的数学性和系统性,也正因为如此入门强化学习的门槛并不低。
强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题,能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理,因为过多的数学可能会让不少读者望而生畏。
但是我们不得不面对的事实是:如果想更透彻地理解强化学习,其数学原理是不可回避的。如果不讲数学,只是通过文字描述,很多时候会有“听君一席话,胜似一席话”的感觉,感觉懂了但是仍然是一问三不知。
文字解释和数学解释是不可逆的关系。如果你明白了数学,能够360度无死角的用文字解释一个问题。但是反过来是不行的,即使通过大量的文字解释,如果不明白背后的数学是什么,最后还是很容被问住。
数学不仅对于你理解问题本质有帮助,当你明白算法里每一个参数的作用,你能够精确和正确编程,否则只能跟着感觉走,有时候会走到弯路上。
此外,目前也有不少的书籍从数学角度介绍强化数学特别是结合自动控制理论。但是这些书往往过于数学化,而且很多时候需要专业的学科背景特别是自动控制理论等,这对初学者来说是不小的挑战。
强化学习的系统性也很强,许多概念一环扣一环。要想深入的理解强化学习,必须要从最基础的概念出发,一点一滴的学习。如果直接从中间开始学习,则会对很多概念的本质理解不清,看似明白了但是经不起考验。
下图是《强化学习的数学原理》前言部分的一幅插图,展示了各个知识点之前的关系。
当我们认识到强化学习的数学性和系统性等特点之后,该如何学习这门课就很清楚了。
大家可以回想一下自己之前是怎么学习高等数学的。我们从不奢望能够短时间内“速成”学会高等数学,因为我们知道必须脚踏实地一步一步来。我们必须先学会什么是极限,才能知道什么是导数,之后才能学会怎么去求积分。然而,在强化学习领域,目前许多读者还没认识到这个问题。如果还没学习导数就想求积分,即使把积分的很多公式给记下来了,并不意味着能够很好的理解和应用。
如果抱着“速成”的想法势必会遇到很多困难。基础打的不牢,将来“楼”盖的越高,越会感觉乏力。一步一步吃透强化学习中的数学原理看似是一个笨办法,实则是真正的捷径。
数学其实并不是高高在上或者令人生畏的:只要通过富有逻辑的方式呈现、掌握好数学知识的深度和广度,完全有可能写出一本既适合入门又能揭示强化学习本质的书籍。我也相信许多读者也有过这样的体验:千言万语的文字描述有时候比不上一个数学公式能让人理解的深刻。
本书力求把强化数学最核心、最基础的东西清晰地展示出来,帮助读者顺利入门。本书不关注算法的编程实现。因为编程特别是结合深度学习已经在最近很多书籍中有介绍,这里就不再重复造轮子了。过多方面的介绍对于一个还没有入门的初学者来说反而可能形成干扰而无法专注于最核心的内容。有了本书的基础,大家可以自由学习其它算法。
本书不要求读者有任何强化学习的背景知识,因为它会总最最基本的概念开始介绍。只要你有决心系统而深入的学习强化学习,有一定的数学基础。相信这本书能让你“快速”入门同时也“知其然并且知其所以然”。如果读者有了一定的强化学习的背景,相信本书也能给你带来新的视角。
本书是我在西湖大学讲授的强化学习的课程的基础上整理得来的。到2022年秋季,这门课已经教了四次。在此过程当中得到了大量的有意义的反馈,对于形成此书目前的结构和内容有很大的帮助。
因为在西湖大学的教学是全英文的,所以本书也是直接英文。我也相信现在国内的读者直接阅读英文是不会有问题的。从我个人的写作风格上来说,我也尽量用朴实的语言清晰地描述复杂的内容。
目前本书仍然是草稿,未来也会有额外的章节、课程的课件和视频上线。
本书详细的内容等信息参见GitHub主页:
https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning
赵世钰是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室负责人、国家海外高层次人才引进计划(青年项目)获得者。他本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院,回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师。更多信息请参见网站:
https://shiyuzhao.westlake.edu.cn
希望本书能够真正的帮助大家跨过强化学习的门槛,进入到这个有趣而生机勃勃的领域!
目前本书仍然是草稿,未来也会有额外的章节、课程的课件和视频上线。
本书详细的内容等信息参见GitHub主页:
https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“RL226” 就可以获取《【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法,226页pdf,西湖大学工学院赵世钰特聘研究员》专知下载链接