【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员

2022 年 8 月 21 日 专知

本文作者：西湖大学工学院特聘研究员--赵世钰老师

排版：OpenDeepRL

强化学习在近些年得到了越来越多的关注。虽然现在关于强化学习的资料有很多，但是许多读者仍然觉得强化学习入门比较困难，许多时候有一种似懂非懂或者 “知其然而不知其所以然”的感觉。甚至一些读者认为强化学习是一个黑盒子，很多东西数学上是解释不清的，这其实是一种误解。事实上，强化学习有很强的数学性和系统性，也正因为如此入门强化学习的门槛并不低。

1. 强化学习的数学性

强化学习是数学和应用的优美结合。如果我们从数学的角度去看待很多问题，能够更加透彻的理解强化学习中的很多问题。不过目前许多学习资料都尽可能避免介绍其中的数学原理，因为过多的数学可能会让不少读者望而生畏。

但是我们不得不面对的事实是：如果想更透彻地理解强化学习，其数学原理是不可回避的。如果不讲数学，只是通过文字描述，很多时候会有“听君一席话，胜似一席话”的感觉，感觉懂了但是仍然是一问三不知。

文字解释和数学解释是不可逆的关系。如果你明白了数学，能够360度无死角的用文字解释一个问题。但是反过来是不行的，即使通过大量的文字解释，如果不明白背后的数学是什么，最后还是很容被问住。

数学不仅对于你理解问题本质有帮助，当你明白算法里每一个参数的作用，你能够精确和正确编程，否则只能跟着感觉走，有时候会走到弯路上。

此外，目前也有不少的书籍从数学角度介绍强化数学特别是结合自动控制理论。但是这些书往往过于数学化，而且很多时候需要专业的学科背景特别是自动控制理论等，这对初学者来说是不小的挑战。

2. 强化学习的系统性

强化学习的系统性也很强，许多概念一环扣一环。要想深入的理解强化学习，必须要从最基础的概念出发，一点一滴的学习。如果直接从中间开始学习，则会对很多概念的本质理解不清，看似明白了但是经不起考验。

下图是《强化学习的数学原理》前言部分的一幅插图，展示了各个知识点之前的关系。

3. 如何学习强化学习

当我们认识到强化学习的数学性和系统性等特点之后，该如何学习这门课就很清楚了。

大家可以回想一下自己之前是怎么学习高等数学的。我们从不奢望能够短时间内“速成”学会高等数学，因为我们知道必须脚踏实地一步一步来。我们必须先学会什么是极限，才能知道什么是导数，之后才能学会怎么去求积分。然而，在强化学习领域，目前许多读者还没认识到这个问题。如果还没学习导数就想求积分，即使把积分的很多公式给记下来了，并不意味着能够很好的理解和应用。

如果抱着“速成”的想法势必会遇到很多困难。基础打的不牢，将来“楼”盖的越高，越会感觉乏力。一步一步吃透强化学习中的数学原理看似是一个笨办法，实则是真正的捷径。

4. 本书的出发点

数学其实并不是高高在上或者令人生畏的：只要通过富有逻辑的方式呈现、掌握好数学知识的深度和广度，完全有可能写出一本既适合入门又能揭示强化学习本质的书籍。我也相信许多读者也有过这样的体验：千言万语的文字描述有时候比不上一个数学公式能让人理解的深刻。

本书力求把强化数学最核心、最基础的东西清晰地展示出来，帮助读者顺利入门。本书不关注算法的编程实现。因为编程特别是结合深度学习已经在最近很多书籍中有介绍，这里就不再重复造轮子了。过多方面的介绍对于一个还没有入门的初学者来说反而可能形成干扰而无法专注于最核心的内容。有了本书的基础，大家可以自由学习其它算法。

本书不要求读者有任何强化学习的背景知识，因为它会总最最基本的概念开始介绍。只要你有决心系统而深入的学习强化学习，有一定的数学基础。相信这本书能让你“快速”入门同时也“知其然并且知其所以然”。如果读者有了一定的强化学习的背景，相信本书也能给你带来新的视角。

5. 本书细节

本书是我在西湖大学讲授的强化学习的课程的基础上整理得来的。到2022年秋季，这门课已经教了四次。在此过程当中得到了大量的有意义的反馈，对于形成此书目前的结构和内容有很大的帮助。

因为在西湖大学的教学是全英文的，所以本书也是直接英文。我也相信现在国内的读者直接阅读英文是不会有问题的。从我个人的写作风格上来说，我也尽量用朴实的语言清晰地描述复杂的内容。

目前本书仍然是草稿，未来也会有额外的章节、课程的课件和视频上线。

本书详细的内容等信息参见GitHub主页：

https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

6. 作者简介

赵世钰是西湖大学工学院特聘研究员、博士生导师、智能无人系统实验室负责人、国家海外高层次人才引进计划（青年项目）获得者。他本硕毕业于北京航空航天大学，博士毕业于新加坡国立大学。他2019年回国加入西湖大学工学院，回国之前在英国谢菲尔德大学自动控制与系统工程系担任讲师和博士生导师。更多信息请参见网站：

https://shiyuzhao.westlake.edu.cn

希望本书能够真正的帮助大家跨过强化学习的门槛，进入到这个有趣而生机勃勃的领域！

7.书籍目录

8.部分章节内容

目前本书仍然是草稿，未来也会有额外的章节、课程的课件和视频上线。

本书详细的内容等信息参见GitHub主页：

https://github.com/MathFoundationRL/Book-Mathmatical-Foundation-of-Reinforcement-Learning

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“RL226” 就可以获取《【新书推荐】《强化学习的数学原理》-高效透彻地理解强化学习算法，226页pdf，西湖大学工学院赵世钰特聘研究员》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

相关内容

数学原理

关注 0

【强化学习的数学原理】课程视频+书籍+PPT——从零开始透彻理解强化学习

专知会员服务

181+阅读 · 2022年9月30日

【实用书】强化学习实战：Python，110页pdf

专知会员服务

150+阅读 · 2022年6月9日

【经典书】贝叶斯统计学Python实战，第二版

专知会员服务

90+阅读 · 2022年5月10日

强化学习难学？Datawhale《Easy RL强化学习教程》出版了！188页pdf帮你轻松入门强化学习

专知会员服务

148+阅读 · 2022年4月8日

【干货书】贝叶斯推理和机器学习，610页pdf

专知会员服务

259+阅读 · 2021年10月8日

【经典书】强化学习算法，98页pdf

专知会员服务

130+阅读 · 2021年8月25日

机器学习简介，61页pdf

专知会员服务

58+阅读 · 2021年7月6日

基于Python介绍算法和数据结构的在线互动书，240页pdf

专知会员服务

61+阅读 · 2021年2月3日

现代机器学习技术导论，596页pdf

专知会员服务

168+阅读 · 2020年7月27日

机器学习速查手册，135页pdf

专知会员服务

345+阅读 · 2020年3月15日

怎么科学有效的学习算法？分享我的算法学习经验

极市平台

0+阅读 · 2022年11月13日

【强化学习的数学原理】课程视频+书籍+PPT——从零开始透彻理解强化学习

专知

4+阅读 · 2022年9月30日

强化学习难学？Datawhale《Easy RL强化学习教程》出版了！帮你轻松入门强化学习，（附赠书福利）

专知

0+阅读 · 2022年4月8日

《Easy RL：强化学习教程》出版了！文末送书

夕小瑶的卖萌屋

2+阅读 · 2022年4月5日

【经验】深度强化学习训练与调参技巧

深度强化学习实验室

3+阅读 · 2022年3月31日

强化学习开篇：Q-Learning原理详解

AINLP

37+阅读 · 2020年7月28日

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

「元学习」解析：学习如何梯度下降与学习新的算法

AI研习社

12+阅读 · 2018年5月1日

干货｜浅谈强化学习的方法及学习路线

机器学习算法与Python学习

16+阅读 · 2018年3月28日

DeepMind高级研究员：重新理解GAN，最新算法、技巧及应用（59页PPT）

新智元

16+阅读 · 2018年2月5日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

提升《高校应用数学学报》的影响力

国家自然科学基金

0+阅读 · 2015年8月31日

非齐次迭代函数系统中的热力学机制

国家自然科学基金

0+阅读 · 2013年12月31日

肺癌治疗中微分方程模型的建立及其动力学性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

中文发展性阅读障碍儿童知觉学习能力缺陷的认知神经机制

国家自然科学基金

0+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

沉积层中水合物驱替形成与CO2多相场耦合运移机理研究

国家自然科学基金

0+阅读 · 2012年12月31日

归纳学习中的不确定性研究

国家自然科学基金

1+阅读 · 2011年12月31日

过程神经网络的智能学习算法研究

国家自然科学基金

0+阅读 · 2008年12月31日

An Incremental Tensor Train Decomposition Algorithm

Arxiv

0+阅读 · 2022年11月22日

TEMPERA: Test-Time Prompting via Reinforcement Learning

Arxiv

0+阅读 · 2022年11月21日

Notes on Aharoni's rainbow cycle conjecture

Arxiv

0+阅读 · 2022年11月20日

ReInform: Selecting paths with reinforcement learning for contextualized link prediction

Arxiv

0+阅读 · 2022年11月19日

Wasserstein bounds in CLT of approximative MCE and MLE of the drift parameter for Ornstein-Uhlenbeck processes observed at high frequency

Arxiv

0+阅读 · 2022年11月18日

Policy Learning for Nonlinear Model Predictive Control with Application to USVs

Arxiv

0+阅读 · 2022年11月18日

Distributed Deep Joint Source-Channel Coding over a Multiple Access Channel

Arxiv

0+阅读 · 2022年11月17日

Sparse Structure Learning via Graph Neural Networks for Inductive Document Classification

Arxiv

10+阅读 · 2021年12月13日

Recent Advances in Reinforcement Learning in Finance

Arxiv

11+阅读 · 2021年12月8日

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

VIP会员