【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

2017 年 8 月 11 日 产业智能官 新智元

20万，这是新智元今天达到的用户总数。在飞向智能宇宙的旅程中，感谢每一位和新智元同行的朋友。您的关注和支持是“新智元号”星舰永不枯竭的燃料。

完整PPT下载：https://sites.google.com/view/icml17deeprl

将“神通广大”的神经网络模型与简单可扩展的训练算法结合在一起的深度学习对包括计算机视觉，语音识别和自然语言处理在内的一系列监督学习领域产生了巨大的影响。深度网络具备的捕获复杂、高维度功能并学习灵活的分布式表示的能力使得这一成功得以实现。这种能力可以对现实世界的决策和控制问题产生影响，机器不仅能对复杂的感官模式进行分类，还可以选择行动，并解释其长期的影响。

决策和控制问题在更经典的深度学习应用中缺乏相关的监督，并带来了一些挑战，需要新的算法开发来解决。在本教程中，我们将介绍与强化学习相关的强化和最优控制的基础理论，讨论将深度学习扩展到决策和控制中的一些最新成果，包括基于模型的算法，模仿学习和逆向强化学习，探索当前深度强化学习算法的前沿和局限性。

深度强化学习，决策与控制

序列决策的深度学习

什么时候不需要顺序决策？

当你的系统在做单独的决策时，例如，分类，回归
当这个决策不影响未来的决策时

一般的应用

机器人、自动驾驶、语言&对话（结构化预测）、商业运作、金融

为什么选择深度强化学习？

深度学习对于解释丰富的感官输入很好
对于选择复杂行动，强化学习很好
使用深度网络来表示感官和动作的映射
包含预估、控制，等
需要扩展到大型的功能

本教程结构：

强化学习的问题设置
无模型强化学习
策略梯度
actor-critic 算法
价值函数

3. Soft optimality

4. 反向RL

5. 基于模型的RL

6. 前沿与开放性挑战

术语和符号

模仿学习

奖励函数

强化学习的目标

强化学习算法解剖

生成样本（即运行策略）→拟合一个模型来预估回报→改善政策

评估策略梯度

策略梯度存在的问题

（上）高方差

（下）慢收敛，难以选择学习率

减小方差

基线

平均奖励不是最好的基线，但相当好了。

控制变量

回顾

策略梯度：

直接微分期望奖励

rial-and-error学习

减小方差

使用因果性

使用基线

改善收敛率自然／协变量梯度

自动步长调整

协变量／自然策略梯度

策略梯度例子：TRPO

自然梯度
自动步长调整
离散行动和连续行动
容易使用
可编码

新一代技术+商业操作系统：

AI-CPS OS

在新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS OS形成数字化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生，在行业、企业和自身三个层面勇立鳌头。

数字化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置。

分辨率革命：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品控制、事件控制和结果控制。
复合不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。
边界模糊化：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。随着变革范围不断扩大，一切都几乎变得不确定，即使是最精明的领导者也可能失去方向。面对新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能）颠覆性的数字化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位。

如果不能在上述三个层面保持领先，领导力将会不断弱化并难以维继：