从入门到大师，强化学习你只要看这些就够了~

2020 年 8 月 13 日 计算机视觉life

对大脑的工作领域，我们知之甚少，但是我们知道的是，大脑能够通过反复尝试来学习知识。当我们做了合适的选择时，大脑就会给我们奖励，但当我们做了错误的抉择时，大脑就会惩罚我们。如果我们可以利用强大的计算能力，在软件中对这个具体过程进行建模，这就是强化学习。

强化学习是机器学习中的一个领域，其最早可以追溯到巴甫洛夫的条件反射实验，它从动物行为研究和优化控制两个领域独立发展，最终经Bellman之手将其抽象为马尔可夫决策过程 (Markov Decision Process，MDP)。

DeepMind DQN

强化学习的经典应用案例有：非线性二级摆系统（非线性控制问题）、棋类游戏、机器人学习站立和走路、无人驾驶、机器翻译、人机对话 等。

不过，强化学习比较快的入门方法是交互式的：

先阅读基础知识，掌握强化学习的发展脉络和整体框架概念；
尝试运行与实现基础算法，上手写代码，做出视觉demo；
然后再进一步系统地学习强化学习，包含基础理论及解法等。

那么，如何才能入门强化学习？如何掌握其框架和算法理论？别急，今天，给大家推荐一份由开课吧提供赞助，《强化学习资料包——从入门到进阶》。包含了 入门篇 和 进阶篇 两大部分内容。非常适合想深耕强化学习（RL）的同学。本号主为大家争取到了免费名额（前200还可以获得8份独家人工智能知识图谱哦）。

目前，2000+ 看过这个资料的同学都顺利成为各公司算法工程师。长按识别下方二维码，快来领取资料吧！

扫码添加，免费获取超全资料

备注【强化学习】领取

划重点

强化学习（RL）——入门篇

资料一：RL经典入门教材（PPT版）

浅显易懂，通过此PPT的学习，可以使学员了解掌握强化学习的全貌，并且对强化学习的基本术语与原理有一定的了解。

资料二：必学算法与源码实现

强化学习的三大算法，掌握DDPG算法、TRPO算法、DPGA算法的实战能力，分别附伪代码和源代码实现。

TRPO算法实现

学习收获：

掌握强化学习的基本算法
对强化学习的核心概念有了一定的了解
可以实现基础的强化学习算法

划重点

强化学习（RL）——进阶篇

资料三：《Reinforcement Learning : An introduction》书籍

本书的作者是Sutton，作为强化学习教父这本书是业内公认的的强化学习基础理论的经典著作是强化学习的必备书籍，入门小白夯实基础，豆瓣评分9.9分。

从强化学习基本思想出发，配合大量实例，帮助读者精确理解理论，提升思维层次。本书可以让你熟知强化学习的理论、策略、项目。

另附赠三本书籍：

第一本：Multi-Agent Machine Learning: a Reinforcement Approach,（英文版），中文名：《多智能体机器学习：强化学习方法》

主要内容：呈现多智能体机器学习中的不同算法和方法框架，讨论强化学习方法。

第二本：Reinforcement learning:state-of-the-art,（英文版），中文名：《强化学习》

主要内容：包含了强化学习领域中，当代主要的17个子领域的研究内容，包括：部分可观察环境、分层任务分解、关系知识表示和预测状态表示，此外，研究了强化学习中的迁移、进化方法和连续空间等问题。

第三本：Hands-on Reinforcement Learning with Python:master Reinforcement and Deep Reinforcement Learning using OpenAI Gym and Tensorflow，（英文版），中文名：《python强化学习实战：应用OpenAI Gym和Tensorflow，精通强化学习和深度强化学习》

主要内容：从openai和tensorflow入门强化学习，马尔可夫决策过程和动态规划、蒙特卡罗方法、时间差分、MAB、深度学习、DQN、DRQN、A3C、策略梯度、ZX。

资料四：Python代码及Github项目