论强化学习和概率推断的等价性：一种全新概率模型

2018 年 5 月 5 日 机器之心

选自arXiv

作者：Sergey Levine

机器之心编译

参与：张倩、刘晓坤

虽然强化学习问题的一般形式可以有效地推理不确定性，但强化学习和概率推断的联系并不是很明显。在本文中，UC Berkeley EECS 助理教授 Sergey Levine 提出了一种新的概率模型和理论框架，证明了强化学习的一般形式即最大熵强化学习与概率推断的等价性。在原则上，将问题形式化为概率推断，可以应用多种近似推断工具，将模型以灵活、强大的方式进行扩展。

概率图模型（PGM）为机器学习研究者提供了一种广泛适用的工具（Koller 和 Friedman，2009）：该模型用概率理论表达整个学习问题，为原则目标的设计提供了一个一致、灵活的框架，建立了反映世界因果结构的模型，并允许针对广泛的问题领域部署一组通用的推理方法。事实上，如果一个特定的学习问题可以形式化为概率图模型，我们通常会将其作为解决问题的第一步，也是最重要的一步。关键的是，在 PGM 框架下，写下模型并提出问题就足够了，学习和推理的目标会自动涌现。

一般来讲，被形式化为强化学习或最优控制的决策问题会被投射到一个框架中，该框架旨在用效用或奖励来扩充概率模型，进而实现模型的泛化，其中奖励函数被视为外部信号。根据这种观点，确定最佳行动方案或最佳决策策略是一种与概率推理截然不同的问题，尽管潜在的动力系统仍然可以用概率图模型来描述。在本文中，我们提出了关于决策、强化学习和最优控制的另一种观点，其中决策问题只是特定类型图模型中的一种推理问题。将决策形式化为概率图模型中的推理，原则上可以使我们得以应用广泛的近似推理工具，以灵活而有力的方式对模型进行扩展，并对模型的组合性和部分可观测性进行推理。

具体来说，我们将讨论强化学习或最优控制问题（有时称为最大熵强化学习）的泛化如何等价于确定性动力学机制下的精确概率推理及随机动力学机制下的变分推断。所有这些方法都包括将控制或强化学习明确或隐含地表述为 PGM，然后部署来自 PGM 文献的学习和推理方法以解决由此产生的推理和学习问题。

将强化学习和决策形式化为推理可以创造出许多其他有吸引力的工具：基于熵最大化的自然探索策略、逆向强化学习的有效工具以及部署解决强化学习问题的强大的近似推理算法的能力。此外，概率推理和控制之间的联系为奖励函数的含义及其对最优策略的影响提供了一种有吸引力的概率解释。强化学习中奖励或成本函数的设计往往与科学一样艺术，奖励的选择往往模糊了算法与目标之间的界限，为任务定制的启发式算法和任务目标组合成单个奖励。在作为推理框架的控制中，奖励诱导随机变量的分布，最优策略的目标是明确匹配由奖励和系统动力学定义的概率分布，这可能为今后的工作提供一种系统化奖励设计的方法。

本文将提出一种概率模型，用于将控制或强化学习的最大熵泛化嵌入 PGM 框架中，描述如何在该模型（确切地说是在确定性动力学机制下，或随机动力学机制下的结构化变分推理）中进行推理，并讨论基于函数逼近的近似方法如何在该框架中拟合。虽然控制的特殊变分推理解释与以往的研究有所不同，但本文的目的并不是要提出一种从根本上看待控制与推理之间联系的新方法。更确切地说，本文是以独立和可访问的教程形式统一处理该主题，并将该框架与最近在强化学习方面的研究相联系，包括最近提出的深度强化学习算法。此外，本文还对近年来与控制作为概率推理的观点相关的强化学习文献进行了综述，并对未来的研究方向提出了一些看法。

在控制问题中利用图模型进行推断

在这一部分，我们将证明基础的图模型可以让我们在 PGM 框架中嵌入控制，并讨论该框架如何导出多种标准强化学习和动态编程方法的变体。这部分展示的 PGM 对应标准强化学习问题的泛化，其中 RL 目标函数增加了一个熵项。奖励函数的量在奖励最大化和熵最大化之间进行权衡，使原始强化学习可以由无限大奖励值极限导出。我们首先定义符号，然后定义图模型，再展示多种推断方法，并解释它们和强化学习、动态编程的标准算法的联系。最后，我们将讨论该方法的一些局限，启发第三部分的变分方法。

变分推断和随机性动力学

在随机性动力学的情况下，最大熵框架的根本困难（参见 2.3、2.4）在于假设智能体被允许同时控制它的动作和系统动态，以生成最优轨迹，但它对系统动态的控制权基于对真实动态的偏差而被惩罚。因此，等式（10）中的 log p(s_t+1|s_t, a_t) 项可以分离到等式之外，生成附加项，其对应的是后验动态 p(s_t+1|s_t, a_t,O1:T) 和真实动态 p(s_t+1|s_t, a_t) 之间的交叉熵。这解释了 2.3 节中讨论的该方法的追逐风险的本质：如果智能体被允许影响它的动态，即使很微弱，它也将合理地移除危险动作的发生可能性不大但却极端糟糕的输出。

当然，在实际的强化学习和控制问题中，这种对系统动态的操控是不可能的，并且得到的策略会导致灾难性的糟糕输出。我们可以通过修改推断过程修正这个问题。在这一部分中，我们将通过固定系统动态，写下对应的最大熵目标函数，来推导这种修正，并导出一个动态编程过程来对其进行优化。然后，我们将表明该过程可以应用到多种结构化变分推断中。

用函数逼近实现近似推断

在上一部分中，我们讨论了动态编程反向算法结合类似 Bellman backup 的更新过程，可以得到类似最大熵强化学习框架中的价值函数和 Q-函数，随机最优化策略可以由 Q-函数和价值函数得到。在这一部分中，我们将讨论高维或连续的强化学习问题的实用算法如何从这个理论框架中使用函数逼近推导出来。然后，我们能得到很多类似标准强化学习中概念的对应技术：策略梯度、actor-critic 算法和 Q-学习。

论文：Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

论文地址：https://arxiv.org/abs/1805.00909

摘要：强化学习或最优控制的框架为智能决策提供了数学形式，使其变得强大和应用广泛。虽然强化学习问题的一般形式可以有效地推理不确定性，但强化学习和概率模型推断的联系并不是很明显。然而，在算法设计中考虑这样的联系还是有价值的：在原则上将一个问题形式化为概率推断，使我们能应用多种近似推断工具，将模型以灵活、强大的方式进行扩展，并对组合性和部分可观测性进行推理。在本文中，我们将讨论强化学习或最优控制问题的一般形式（有时称为最大熵强化学习）如何与确定性动力学的概率推断等价，并与随机性动力学的变分推断等价。我们将展示该框架的细节推导，概述以前的相关研究和相关思想来提出新的强化学习和控制算法，并展望了未来的研究方向。