生成扩散模型漫谈：一般框架之ODE篇

2022 年 9 月 1 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

上一篇文章《生成扩散模型漫谈：一般框架之SDE篇》中，我们对宋飏博士的论文《Score-Based Generative Modeling through Stochastic Differential Equations》[1] 做了基本的介绍和推导。然而，顾名思义，上一篇文章主要涉及的是原论文中 SDE 相关的部分，而遗留了被称为“概率流 ODE（Probability flow ODE）”的部分内容，所以本文对此做个补充分享。

事实上，遗留的这部分内容在原论文的正文中只占了一小节的篇幅，但我们需要新开一篇文章来介绍它，因为笔者想了很久后发现，该结果的推导还是没办法绕开 Fokker-Planck 方程，所以我们需要一定的篇幅来介绍 Fokker-Planck 方程，然后才能请主角 ODE 登场。

再次反思

我们来大致总结一下上一篇文章的内容：首先，我们通过 SDE 来定义了一个前向过程（“拆楼”）：

然后，我们推导了相应的逆向过程的 SDE（“建楼”）：

最后，我们推导了用神经网络来估计的损失函数（得分匹配）：

至此，我们完成了扩散模型的训练、预测的一般框架，可以说，它是DDPM的非常一般化的推广了。但正如《生成扩散模型漫谈：DDIM = 高观点DDPM》中介绍的 DDIM 是 DDPM 的高观点反思结果，SDE 作为 DDPM 的推广，有没有相应的“高观点反思结果”呢？有，其结果就是本文主题“概率流 ODE”。

Dirac函数

DDIM 做了什么反思呢？很简单，DDIM 发现 DDPM 的训练目标主要跟有关，而跟无关，所以它以为出发点，去推导更一般的和。概率流ODE做的反思是类似的，它想知道在 SDE 框架中，对于固定的，能找出哪些不同的（或者说找到不同的前向过程 SDE）。

我们先写出前向过程 (1) 的离散形式：

这个等式描述的是随机变量之间的关系，我们可以方便地对两边求期望，然而我们并非想求期望，而是想求分布（所满足的关系式）。怎么将分布转换成期望形式呢？答案是 Dirac 函数 [2] ：

Dirac 函数严格定义是属于泛函分析的内容，但我们通常都是当它是普通函数来处理，一般都能得到正确的结果。由上式还可以得知，对于任意，成立：

直接对上式两边求偏导数，得到：

这是后面要用到的性质之一，可以发现它本质上是狄拉克函数的导数能够通过积分转移到所乘函数上去。

F-P方程

经过上述铺垫，现在我们根据式 (4) 写出：

这里当是普通函数那样做了泰勒展开，只保留了不超过的项。现在我们两边求期望：

两边除以，并取的极限，结果是：

这就是式 (1) 所对应的“F-P 方程”（Fokker-Planck 方程 [3] ），它是描述边际分布的偏微分方程。

等价变换

大家看到偏微分方程不用担心，因为这里并没有打算去研究怎么求解偏微分方程，只是借助它来引导一个等价变换而已。对于任意满足的函数，F-P 方程 (10) 完全等价于：

形式上该 F-P 方程又相当于原来的 F-P 的换成了

、换成了，根据式 (10) 对应于式 (1)，上式则对应于：

但是别忘了式 (10) 跟式 (11) 是完全等价的，所以这意味着式 (1) 和式 (12) 这两个随机微分方程所对应的边际分布是完全等价的！这个结果告诉我们存在不同方差的前向过程，它们产生的边际分布是一样的。这个结果相当于 DDIM 的升级版，后面我们还会证明，当是关于的线性函数时，它就完全等价于 DDIM。

神经ODE

式 (12) 允许我们改变采样过程的方差，这里我们特别考虑的极端情形，此时 SDE 退化为 ODE（常微分方程）：

这个 ODE 称为“概率流 ODE（Probability flow ODE）”，由于实践中的需要用神经网络近似，所以上式也对应一个“神经 ODE”。

为什么要特别研究方差为 0 的情形呢？因为此时传播过程不带噪声，从到是一个确定性变换，所以我们直接反向求解 ODE 就能得到由变换为的逆变换，这也是一个确定性变换（代入式 (2) 也可以发现前向和反向的方程是一样的）。

这个过程和 flow 模型是一致的（即通过一个可逆的变换将噪声变换成样本），所以概率流 ODE 允许我们将扩散模型的结果与 flow 模型相关结果对应起来，比如原论文提到概率流 ODE 允许我们做精确的似然计算、获得隐变量表征等，这些本质上都是 flow 模型的好处。由于 flow 模型的可逆性，它还允许我们在隐变量空间对原图做一些图片编辑等。