本文作者:西湖大学工学院特聘研究员--赵世钰老师

排版:OpenDeepRL

强化学习在近些年得到了越来越多的关注。虽然现在关于强化学习的资料有很多,但是许多读者仍然觉得强化学习入门比较困难,许多时候有一种似懂非懂或者 “知其然而不知其所以然”的感觉。甚至一些读者认为强化学习是一个黑盒子,很多东西数学上是解释不清的,这其实是一种误解。事实上,强化学习有很强的数学性和系统性,也正因为如此入门强化学习的门槛并不低。

1. 强化学习的数学性

强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题,能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理,因为过多的数学可能会让不少读者望而生畏。 但是我们不得不面对的事实是:如果想更透彻地理解强化学习,其数学原理是不可回避的。如果不讲数学,只是通过文字描述,很多时候会有“听君一席话,胜似一席话”的感觉,感觉懂了但是仍然是一问三不知。 文字解释和数学解释是不可逆的关系。如果你明白了数学,能够360度无死角的用文字解释一个问题。但是反过来是不行的,即使通过大量的文字解释,如果不明白背后的数学是什么,最后还是很容被问住。 数学不仅对于你理解问题本质有帮助,当你明白算法里每一个参数的作用,你能够精确和正确编程,否则只能跟着感觉走,有时候会走到弯路上。 此外,目前也有不少的书籍从数学角度介绍强化数学特别是结合自动控制理论。但是这些书往往过于数学化,而且很多时候需要专业的学科背景特别是自动控制理论等,这对初学者来说是不小的挑战。

2. 强化学习的系统性

强化学习的系统性也很强,许多概念一环扣一环。要想深入的理解强化学习,必须要从最基础的概念出发,一点一滴的学习。如果直接从中间开始学习,则会对很多概念的本质理解不清,看似明白了但是经不起考验。

下图是《强化学习的数学原理》前言部分的一幅插图,展示了各个知识点之前的关系。

3. 如何学习强化学习

当我们认识到强化学习的数学性和系统性等特点之后,该如何学习这门课就很清楚了。 大家可以回想一下自己之前是怎么学习高等数学的。我们从不奢望能够短时间内“速成”学会高等数学,因为我们知道必须脚踏实地一步一步来。我们必须先学会什么是极限,才能知道什么是导数,之后才能学会怎么去求积分。然而,在强化学习领域,目前许多读者还没认识到这个问题。如果还没学习导数就想求积分,即使把积分的很多公式给记下来了,并不意味着能够很好的理解和应用。 如果抱着“速成”的想法势必会遇到很多困难。基础打的不牢,将来“楼”盖的越高,越会感觉乏力。一步一步吃透强化学习中的数学原理看似是一个笨办法,实则是真正的捷径。

4. 本书的出发点

数学其实并不是高高在上或者令人生畏的:只要通过富有逻辑的方式呈现、掌握好数学知识的深度和广度,完全有可能写出一本既适合入门又能揭示强化学习本质的书籍。我也相信许多读者也有过这样的体验:千言万语的文字描述有时候比不上一个数学公式能让人理解的深刻。 本书力求把强化数学最核心、最基础的东西清晰地展示出来,帮助读者顺利入门。本书不关注算法的编程实现。因为编程特别是结合深度学习已经在最近很多书籍中有介绍,这里就不再重复造轮子了。过多方面的介绍对于一个还没有入门的初学者来说反而可能形成干扰而无法专注于最核心的内容。有了本书的基础,大家可以自由学习其它算法。 本书不要求读者有任何强化学习的背景知识,因为它会总最最基本的概念开始介绍。只要你有决心系统而深入的学习强化学习,有一定的数学基础。相信这本书能让你“快速”入门同时也“知其然并且知其所以然”。如果读者有了一定的强化学习的背景,相信本书也能给你带来新的视角。

5. 本书细节

本书是我在西湖大学讲授的强化学习的课程的基础上整理得来的。到2022年秋季,这门课已经教了四次。在此过程当中得到了大量的有意义的反馈,对于形成此书目前的结构和内容有很大的帮助。 因为在西湖大学的教学是全英文的,所以本书也是直接英文。我也相信现在国内的读者直接阅读英文是不会有问题的。从我个人的写作风格上来说,我也尽量用朴实的语言清晰地描述复杂的内容。 目前本书仍然是草稿,未来也会有额外的章节、课程的课件和视频上线。 本书详细的内容等信息参见GitHub主页:

https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

6. 作者简介

赵世钰是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室负责人、国家海外高层次人才引进计划(青年项目)获得者。他本硕毕业于北京航空航天大学,博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院,回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师。更多信息请参见网站: https://shiyuzhao.westlake.edu.cn 希望本书能够真正的帮助大家跨过强化学习的门槛,进入到这个有趣而生机勃勃的领域!

7.书籍目录

8.部分章节内容

目前本书仍然是草稿,未来也会有额外的章节、课程的课件和视频上线。 本书详细的内容等信息参见GitHub主页: https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

成为VIP会员查看完整内容
147

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【实用书】强化学习实战:Python,110页pdf
专知会员服务
147+阅读 · 2022年6月9日
【干货书】Python 编程,480页pdf
专知会员服务
237+阅读 · 2020年8月14日
专知会员服务
164+阅读 · 2020年7月27日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
【实用书】强化学习实战:Python,110页pdf
入门强化学习,初学者值得一看!
学术头条
3+阅读 · 2021年12月19日
通俗讲解深度学习和神经网络
极市平台
3+阅读 · 2021年12月4日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)
专知
15+阅读 · 2018年1月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年7月19日
国家自然科学基金
3+阅读 · 2015年6月27日
国家自然科学基金
2+阅读 · 2015年5月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年10月5日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
24+阅读 · 2021年6月25日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
23+阅读 · 2020年9月16日
VIP会员
相关VIP内容
【实用书】强化学习实战:Python,110页pdf
专知会员服务
147+阅读 · 2022年6月9日
【干货书】Python 编程,480页pdf
专知会员服务
237+阅读 · 2020年8月14日
专知会员服务
164+阅读 · 2020年7月27日
《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
225+阅读 · 2020年3月22日
机器学习速查手册,135页pdf
专知会员服务
340+阅读 · 2020年3月15日
相关资讯
【实用书】强化学习实战:Python,110页pdf
入门强化学习,初学者值得一看!
学术头条
3+阅读 · 2021年12月19日
通俗讲解深度学习和神经网络
极市平台
3+阅读 · 2021年12月4日
一文了解强化学习
AI100
15+阅读 · 2018年8月20日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)
专知
15+阅读 · 2018年1月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年7月19日
国家自然科学基金
3+阅读 · 2015年6月27日
国家自然科学基金
2+阅读 · 2015年5月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
6+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
国家自然科学基金
3+阅读 · 2009年12月31日
相关论文
Arxiv
0+阅读 · 2022年10月5日
Arxiv
69+阅读 · 2022年6月13日
Arxiv
24+阅读 · 2021年6月25日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
16+阅读 · 2021年1月27日
Arxiv
24+阅读 · 2021年1月25日
Arxiv
23+阅读 · 2020年9月16日
微信扫码咨询专知VIP会员