如何开启深度强化学习的大门？丨课程推荐

2017 年 9 月 13 日 InfoQ StuQ

什么是深度强化学习？

深度强化学习（Deep Reinforcement Learning）是将深度学习与强化学习结合起来从而实现从 Perception 感知到 Action 动作的端对端学习的一种全新的算法。举例来理解，就是和人类一样，输入感知信息比如视觉，然后通过深度神经网络，直接输出动作，中间没有 hand-crafted 工作。

整个过程，就是一个连续决策的过程，其特点是不给任何数据做标注，仅仅提供一个回报函数，这个回报函数决定当前状态得到什么样的结果（比如“好”还是“坏”），强化学习最终目的是让决策过程中整体的回报函数期望最优，深度增强学习具备使机器人实现完全自主的学习一种甚至多种技能的潜力。

学习深度强化学习的预备条件

虽然说，深度强化学习可以从零开始，但是毕竟这还是深度学习中的最前沿的算法，为了更好的理解，大家还是要具备一些基本基础：

一定的数学基础：线性代数基础和概率论基础；

一定的编程基础：（Python 编程基础，后面的代码实现可以基于 Tensorflow 实现）。

What next？

由于深度强化学习的样本是一个时间序列，要将增强学习的问题模型化，就必须掌握 MDP（Markov Decision Process）马尔科夫决策过程。

在引出了 MDP 之后，由于每一个时刻的状态是确定的，我们可以用 Value Function 价值函数来描述这个状态的价值，从而确定我们的决策方式。

因为需要估算 Value Function，找出最优决策，引入 Bellman 方程是最好的办法。

还有 Value Iteration （价值迭代）、Q Learning 等学习的内容，都需要完成学习。

那么有没有最优的解决办法？

斯达克学院（StuQ）携手 AI 教研室（AI_classroom）共同为大家打造一系列深度强化学习公开课，第一讲内容我们邀请到香港理工大学计算机系博士—Traffas 为大家进行分享，我们会用一个小时的时间来带领大家理解什么是深度强化学习，培养解决大家的解决问题思路，知道什么问题需要强化学习的算法求解，透彻细致的讲解 Q 算法的机制，具体可参考海报。

报名方式

扫码添加小助手，获取进群方式。

戳阅读原文，了解更多。

登录查看更多

相关内容

深度强化学习

关注 154

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【圣经书】《强化学习导论(2nd)》电子书与代码，548页pdf

专知会员服务

208+阅读 · 2020年5月22日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日