©PaperWeekly 原创 · 作者 | 苏剑林
单位 | 追一科技
研究方向 | NLP、神经网络
上一篇文章《生成扩散模型漫谈:一般框架之SDE篇》中,我们对宋飏博士的论文《Score-Based Generative Modeling through Stochastic Differential Equations》[1] 做了基本的介绍和推导。然而,顾名思义,上一篇文章主要涉及的是原论文中 SDE 相关的部分,而遗留了被称为“概率流 ODE(Probability flow ODE)”的部分内容,所以本文对此做个补充分享。
事实上,遗留的这部分内容在原论文的正文中只占了一小节的篇幅,但我们需要新开一篇文章来介绍它,因为笔者想了很久后发现,该结果的推导还是没办法绕开 Fokker-Planck 方程,所以我们需要一定的篇幅来介绍 Fokker-Planck 方程,然后才能请主角 ODE 登场。
再次反思
我们来大致总结一下上一篇文章的内容:首先,我们通过 SDE 来定义了一个前向过程(“拆楼”):
然后,我们推导了相应的逆向过程的 SDE(“建楼”):
最后,我们推导了用神经网络
来估计
的损失函数(得分匹配):
至此,我们完成了扩散模型的训练、预测的一般框架,可以说,它是DDPM的非常一般化的推广了。但正如《生成扩散模型漫谈:DDIM = 高观点DDPM》中介绍的 DDIM 是 DDPM 的高观点反思结果,SDE 作为 DDPM 的推广,有没有相应的“高观点反思结果”呢?有,其结果就是本文主题“概率流 ODE”。
Dirac函数
DDIM 做了什么反思呢?很简单,DDIM 发现 DDPM 的训练目标主要跟
有关,而跟
无关,所以它以
为出发点,去推导更一般的
和
。概率流ODE做的反思是类似的,它想知道在 SDE 框架中,对于固定的
,能找出哪些不同的
(或者说找到不同的前向过程 SDE)。
这个等式描述的是随机变量
之间的关系,我们可以方便地对两边求期望,然而我们并非想求期望,而是想求分布
(所满足的关系式)。怎么将分布转换成期望形式呢?答案是 Dirac 函数
[2]
:
Dirac 函数严格定义是属于泛函分析的内容,但我们通常都是当它是普通函数来处理,一般都能得到正确的结果。由上式还可以得知,对于任意
,成立:
这是后面要用到的性质之一,可以发现它本质上是狄拉克函数的导数能够通过积分转移到所乘函数上去。
F-P方程
这里当
是普通函数那样做了泰勒展开,只保留了不超过
的项。现在我们两边求期望:
这就是式 (1) 所对应的“F-P 方程”(Fokker-Planck 方程
[3]
),它是描述边际分布的偏微分方程。
等价变换
大家看到偏微分方程不用担心,因为这里并没有打算去研究怎么求解偏微分方程,只是借助它来引导一个等价变换而已。对于任意满足
的函数
,F-P 方程 (10) 完全等价于:
但是别忘了式 (10) 跟式 (11) 是完全等价的,所以这意味着式 (1) 和式 (12) 这两个随机微分方程所对应的边际分布
是完全等价的!这个结果告诉我们存在不同方差的前向过程,它们产生的边际分布是一样的。这个结果相当于 DDIM 的升级版,后面我们还会证明,当
是关于
的线性函数时,它就完全等价于 DDIM。
神经ODE
式 (12) 允许我们改变采样过程的方差,这里我们特别考虑
的极端情形,此时 SDE 退化为 ODE(常微分方程):
这个 ODE 称为“概率流 ODE(Probability flow ODE)”,由于实践中的
需要用神经网络
近似,所以上式也对应一个“神经 ODE”。
为什么要特别研究方差为 0 的情形呢?因为此时传播过程不带噪声,从
到
是一个确定性变换,所以我们直接反向求解 ODE 就能得到由
变换为
的逆变换,这也是一个确定性变换(代入式 (2) 也可以发现前向和反向的方程是一样的)。
这个过程和 flow 模型是一致的(即通过一个可逆的变换将噪声变换成样本),所以概率流 ODE 允许我们将扩散模型的结果与 flow 模型相关结果对应起来,比如原论文提到概率流 ODE 允许我们做精确的似然计算、获得隐变量表征等,这些本质上都是 flow 模型的好处。由于 flow 模型的可逆性,它还允许我们在隐变量空间对原图做一些图片编辑等。
另一方面,从
到
的变换由一个 ODE 描述,这意味着我们可以通过各种高阶的 ODE 数值算法来加速从
到
的变换过程。当然,原则上 SDE 的求解也有一些加速方法,但 SDE 的加速研究远远不如 ODE 的容易和深入。总的来说,相比 SDE,ODE 在理论分析和实际求解中都显得更为简单直接。
将这些关系代入到式 (13)(
替换为 )后,整理得到:
左端可以进一步整理得到
,因此上式跟式 (14) 完全等价。
本文在 SDE 篇的基础上,借助 F-P 方程推导了更一般化的前向方程,继而推导出了“概率流 ODE”,并证明了 DDIM 是它的一个特例。
[1] https://arxiv.org/abs/2011.13456
[2] https://kexue.fm/archives/1870
[3] https://en.wikipedia.org/wiki/Fokker%E2%80%93Planck_equation
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧