全新强化学习算法详解，看贝叶斯神经网络如何进行策略搜索

2017 年 7 月 27 日 炼数成金订阅号

首先，在这里，介绍一下我们最近在ICLR（International Conference on Learning Representations）上发表的论文《利用贝叶斯神经网络进行随机动力系统中的学习与策略搜索》（ICLR 2017）。点击此处查看论文代码和视频。它介绍了一种基于模型的强化学习的新方法。这项成果的主要作者是Stefan Depeweg，他是慕尼黑技术大学的博士生。

图：pixabay

在这项成果中，关键的贡献在于我们的模型：具有随机输入的贝叶斯神经网络，其输入层包含输入特征，以及随机变量，其通过网络向前传播并在输出层转换为任意噪声信号。

随机输入使我们的模型能够自动捕获复杂的噪声模式，提高基于模型的模拟质量，并在实践中制定出更好的策略。

问题描述

我们解决了随机动力系统中策略搜索的问题。例如，我们要操作诸如燃气轮机这样的工业系统：

这些系统的抽象图如下所示。系统的当前状态被表示为s_t并且与每个状态s_t相关联，同时存在一个由函数c（•）给出的成本c（s_t）。在每个时间步中，我们应用一个操作，这将在下一个时间步s_t + 1时影响系统的状态。

从s_t到s_t + 1的转换不仅仅是由action a_t决定的，而且还由一些我们无法控制的噪声信号决定。该噪声信号可由图中的骰子来表示。在涡轮机示例中，噪声源自于我们观察到的包括传感器测量的状态，这是对系统真实状态的不完整描述。

需要注意的是，上述表达式是随机的，因为它取决于初始状态s_1的选择和状态转换中的随机噪声。

批量强化学习

我们考虑批量强化学习场景，在学习过程中不会与系统交互。这种情况在现实世界的工业环境中是很常见的，例如涡轮机控制，其中探测受到限制，以避免产生可能的系统损失。

因此，为了找到一个最优策略，我们只需要从已经运行的系统中以状态转换的形式获得一批数据D = {(s_t, a_t, s_t+1)}，而且我们将无法收集任何额外的数据。

噪声在最优控制中的作用

最优策略会受到状态转换中噪声的显著影响。关于这一点，Bert Kappen 在《最优控制理论的路径积分与对称破缺》中提出的醉酒蜘蛛故事可进行以很好的说明，在这里，我们可以将其用作一个激励示例来进行说明。

蜘蛛要回家的话，它有两个可能的路径：穿过湖上的桥或者绕着湖边走回家。在没有噪音的情况下，桥梁是比较好的选择，因为它更短。然而，在大量饮酒后，蜘蛛的运动可能会随机地左右随摇晃。考虑到桥梁狭窄，且蜘蛛不喜欢游泳，所以现在较优的选择是沿着湖边走回家。

显然，这个例子显示了噪声是如何显著地影响最佳控制的。例如，最优策略可以根据噪声水平的高低进行改变。因此，我们期望在基于模型的增强学习中获得显著的改进，通过捕获状态转换数据中存在的任何噪声模式。因此，我们期望通过高精度捕获状态转换数据中存在的任何噪声模式，从而获得基于模型的强化学习的显著改进。

具有随机输入的贝叶斯神经网络

实际上，状态转换数据中的大多数建模方法只是假设s_t + 1中的附加高斯噪声（additive Gaussian noise），即，

其中f_W可以视作一个权重为W的神经网络。在这种情况下，以最大似然法来学习W是非常容易的。然而，在现实世界的设置中附加高斯噪声的假设不太可能存在。

不过，可以通过在f_W中使用随机输入，从而在转换动力学中获得一个更为灵活的噪声模型。实际上，我们可以假设：

在这个模型下，输入噪声变量z_t可以通过f_W以复杂的方式进行变换，以在s_t + 1中产生任意的随机模式来作为s_t和a_t的函数。

然而，现在由于z_t是未知的，所以不能再以最大似然法来学习W。不过，我们可以采用一个相反思想的解决方案：贝叶斯方法，W和z_t进行后验分布。这个分布捕捉我们在看到D中数据后可能会采用的值的不确定性。

如果想要计算准确的后验分布其实是很棘手的，但我们可以学习高斯近似。这种近似的参数可以通过最小化对真后验的发散来调整。变异贝叶斯（VB）是一种通用于此类问题的方法，可以通过最小化Kullback-Leibler散度来实现。

α发散最小化（α-divergence minimization）

其实，对于如何学习因式分解后的高斯近似，我们可以通过最小化α发散来实现，而不使用VB。关于α发散，在Minka, Thomas P所著的《散度度量和消息传递》和我与Li Y.等人所著的《黑箱α发散的最小化》中皆有所提及。通过改变这种发散中的α值，我们可以在真实的后验分布p模式下进行平滑的插值，也可以在p中覆盖多种模式，如下图所示：

其实很有趣的一点是，VB是α发散最小化中α= 0的一种特殊情况。而另外一种众所周知的用于近似贝叶斯推理的方法是期望传播（expectation propagation），它可以由α= 1获得。在我们的实验中，我们使用α= 0.5，因为在实际情况下，这会产生更好的概率预测。关于这一点，《黑箱α发散的最小化》（ICML 2016）中有更为详尽的阐述。

示例的结果演示

下图显示了在两个示例中进行具有随机输入的贝叶斯神经网络的执行结果。每个示例的训练数据显示在最左边的列中。顶行显示的是双模态预测分布的问题。底行显示的是异方差噪声的问题（噪声幅度取决于输入）。