生成扩散模型漫谈：DDIM = 高观点DDPM

2022 年 8 月 4 日 PaperWeekly

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

相信很多读者都听说过甚至读过克莱因的《高观点下的初等数学》[1] 这套书，顾名思义，这是在学到了更深入、更完备的数学知识后，从更高的视角重新审视过往学过的初等数学，以得到更全面的认知，甚至达到温故而知新的效果。类似的书籍还有很多，比如《重温微积分》[2]、《复分析：可视化方法》[3] 等。

回到扩散模型，目前我们已经通过三篇文章从不同视角去解读了DDPM，那么它是否也存在一个更高的理解视角，让我们能从中得到新的收获呢？当然有，《Denoising Diffusion Implicit Models》[4] 介绍的 DDIM 模型就是经典的案例，本文一起来欣赏它。

思路分析

在《生成扩散模型漫谈：DDPM = 贝叶斯 + 去噪》中，我们提到过该文章所介绍的推导跟 DDIM 紧密相关。具体来说，文章的推导路线可以简单归纳如下：

这个过程是一步步递进的。然而，我们发现最终结果有着两个特点：

1. 损失函数只依赖于；

2. 采样过程只依赖于。

也就是说，尽管整个过程是以为出发点一步步往前推的，但是从结果上来看，压根儿就没的事。那么，我们大胆地“异想天开”一下：

高观点1： 既然结果跟无关，可不可以干脆“过河拆桥”，将从整个推导过程中去掉？

DDIM 正是这个“异想天开”的产物！

待定系数

可能有读者会想，根据上一篇文章所用的贝叶斯定理：

没有给定怎么能得到？这其实是思维过于定式了，理论上在没有给定的情况下，的解空间更大，某种意义上来说是更加容易推导，此时它只需要满足边际分布条件：

我们用待定系数法来求解这个方程。在上一篇文章中，所解出的是一个正态分布，所以这一次我们可以更一般地设：

其中都是待定系数，而为了不重新训练模型，我们不改变和，于是我们可以列出：

其中，并且由正态分布的叠加性我们知道

。对比的两个采样形式，我们发现要想（1）成立，只需要满足两个方程：

可以看到有三个未知数，但只有两个方程，这就是为什么说没有给定时解空间反而更大了。将视为可变参数，可以解出：

或者写成：

方便起见，我们约定。特别地，这个结果并不需要限定，不过为了简化参数设置，同时也为了跟以往的结果对齐，这里还是约定。

一如既往

现在我们在只给定的情况下，通过待定系数法求解了的一簇解，它带有一个自由参数。用《生成扩散模型漫谈：DDPM = 拆楼 + 建楼》中的“拆楼-建楼”类比来说，就是我们知道楼会被拆成什么样【、】，但是不知道每一步怎么拆【】，然后希望能够从中学会每一步怎么建【】。当然，如果我们想看看每一步怎么拆的话，也可以反过来用贝叶斯公式：

接下来的事情，就跟上一篇文章一模一样了：我们最终想要而不是，所以我们希望用：

来估计，由于没有改动，所以训练所用的目标函数依然是（除去权重系数），也就是说训练过程没有改变，我们可以用回 DDPM 训练好的模型。而用替换掉式（7）中的后，得到：

这就求出了生成过程所需要的。它的特点是训练过程没有变化（也就是说最终保存下来的模型没有变化），但生成过程却有一个可变动的参数，就是这个参数给 DDPM 带来了新鲜的结果。

几个例子

原则上来说，我们对没有过多的约束，但是不同的采样过程会呈现出不同的特点，我们举几个例子进行分析。

第一个简单例子就是取，其中，相应地有：

这就是上一篇文章所推导的 DDPM。特别是，DDIM 论文中还对做了对比实验，其中。

第二个例子就是取，这也是前两篇文章所指出的的两个选择之一，在此选择下式（10）未能做进一步的化简，但 DDIM 的实验结果显示此选择在 DDPM 的标准参数设置下表现还是很好的。

最特殊的一个例子是取，此时从到是一个确定性变换：

这也是 DDIM 论文中特别关心的一个例子，准确来说，原论文的 DDIM 就是特指的情形，其中“I”的含义就是“Implicit”，意思这是一个隐式的概率模型，因为跟其他选择所不同的是，此时从给定的出发，得到的生成结果是不带随机性的。后面我们将会看到，这在理论上和实用上都带来了一些好处。

加速生成

值得指出的是，在这篇文章中我们没有以为出发点，所以前面的所有结果实际上全都是以相关记号给出的，而则是通过和派生出来的记号。从损失函数可以看出，给定了各个，训练过程也就确定了。

从这个过程中，DDIM 进一步留意到了如下事实：

高观点2：DDPM 的训练结果实质上包含了它的任意子序列参数的训练结果。具体来说，设是的任意子序列，那么我们以为参数训练一个扩散步数为步的 DDPM，其目标函数实际上是原来以的 T 步 DDPM 的目标函数的一个子集！所以在模型拟合能力足够好的情况下，它其实包含了任意子序列参数的训练结果。

那么反过来想，如果有一个训练好的 T 步 DDPM 模型，我们也可以将它当成是以为参数训练出来的步模型，而既然是步的模型，生成过程也就只需要步了，根据式（10）有：

这就是加速采样的生成过程了，从原来的 T 步扩散生成变成了步。要注意不能直接将式（10）的换成，因为我们说过是派生记号而已，它实际上等于，因此要换成才对。同理，也不是直接取，而是在将其定义全部转化为符号后，将 t 替换为、替换为，比如式（11）对应的为：

可能读者又想问，我们为什么干脆不直接训练一个步的扩散模型，而是要先训练步然后去做子序列采样？笔者认为可能有两方面的考虑：一方面从步生成来说，训练更多步数的模型也许能增强泛化能力；另一方面，通过子序列进行加速只是其中一种加速手段，训练更充分的 T 步允许我们尝试更多的其他加速手段，但并不会显著增加训练成本。

实验结果

原论文对不同的噪声强度和扩散步数做了组合对比，大致上的结果是“噪声越小，加速后的生成效果越好”，如下图：

▲ DDIM 的实验结果，显示噪声越小，加速后的生成效果越好

笔者的参考实现如下：

https://github.com/bojone/Keras-DDPM/blob/main/ddim.py

个人的实验结论是：

1. 可能跟直觉相反，生成过程中的越小，最终生成图像的噪声和多样性反而相对来说越大；

2. 扩散步数越少，生成的图片更加平滑，多样性也会有所降低；

3. 结合 1、2 两点得知，在扩散步数减少时，可以适当缩小 $\sigma_t，以保持生成图片质量大致不变，这跟 DDIM 原论文的实验结论是一致的；

4. 在较小时，相比可训练的 Embedding 层，用固定的 Sinusoidal 编码来表示 t 所生成图片的噪声要更小；

5. 在较小时，原论文的 U-Net 架构（Github 中的 ddpm2.py [5]）要比笔者自行构思的 U-Net 架构（Github 中的 ddpm.py [6]）所生成图片的噪声要更小；

6. 但个人感觉，总体来说不带噪声的生成过程的生成效果不如带噪声的生成过程，不带噪声时生成效果受模型架构影响较大。

此外，对于时的 DDIM，它就是将任意正态噪声向量变换为图片的一个确定性变换，这已经跟 GAN 几乎一致了，所以跟 GAN 类似，我们可以对噪声向量进行插值，然后观察对应的生成效果。但要注意的是，DDPM 或 DDIM 对噪声分布都比较敏感，所以我们不能用线性插值而要用球面插值，因为由正态分布的叠加性，如果一般就不服从，要改为：

插值效果演示（笔者自己训练的模型）：

▲ DDIM随机向量的插值生成效果

微分方程

最后，我们来重点分析一下的情形。此时（12）可以等价地改写成：

当 T 足够大，或者说与足够小时，我们可以将上式视为某个常微分方程的差分形式。特别地，引入虚拟的时间参数 s，我们得到：

不失一般性，假设，其中对应、对应。注意 DDIM 原论文直接用作为虚拟时间参数，这原则上是不大适合的，因为它的范围是，无界的区间不利于数值求解。

那么现在我们要做的事情就是在给定的情况下，去求解出。而 DDPM 或者 DDIM 的迭代过程，对应于该常微分方程的欧拉方法 [7] 。众所周知欧拉法的效率相对来说是最慢的，如果要想加速求解，可以用 Heun 方法 [8] 、R-K 方法 [9] 等。也就是说，将生成过程等同于求解常微分方程后，可以借助常微分方程的数值解法，为生成过程的加速提供更丰富多样的手段。

以DDPM 的默认参数 T=1000、为例，我们重复《生成扩散模型漫谈：DDPM = 拆楼 + 建楼》所做的估计：

事实上，由于每个都很接近于 1，所以上述估计其实也是一个很好的近似。而我们说了本文的出发点是，所以应该以为起点，根据上述近似，我们可以直接简单地取：

如果取为参数，那么正好，此时，代入到式（17）化简得：

也可以取为参数，此时也有，以及，代入到式（17）化简得：

文章小结

本文接着上一篇 DDPM 的推导思路来介绍了 DDIM，它重新审视了 DDPM 的出发点，去掉了推导过程中的，从而获得了一簇更广泛的解和加速生成过程的思路，最后这簇新解还允许我们将生成过程跟常微分方程的求解联系起来，从而借助常微分方程的方法进一步对生成过程进行研究。

参考文献

[1] https://book.douban.com/subject/3249247/

[2] https://book.douban.com/subject/1239791/

[3] https://book.douban.com/subject/3788399/

[4] https://arxiv.org/abs/2010.02502

[5] https://github.com/bojone/Keras-DDPM/blob/main/ddpm2.py

[6] https://github.com/bojone/Keras-DDPM/blob/main/ddpm.py

[7] https://en.wikipedia.org/wiki/Euler_method

[8] https://en.wikipedia.org/wiki/Heun%27s_method

[9] https://en.wikipedia.org/wiki/Runge%E2%80%93Kutta_methods

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

扩散模型

关注 34

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程，在复杂的图像分布和高斯分布之间建立联系，使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

专知会员服务

123+阅读 · 2022年9月8日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

12篇顶会论文，深度学习时间序列预测经典方案汇总！

专知会员服务

55+阅读 · 2022年4月11日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【斯坦福经典书】强化学习在金融应用，414页pdf

专知会员服务

127+阅读 · 2021年3月30日

【斯坦福经典书】概率理论，400页pdf

专知会员服务

143+阅读 · 2020年12月3日

最新【深度生成模型】Deep Generative Models，104页ppt

专知会员服务

71+阅读 · 2020年10月24日

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

超越深度学习：梯度提升机Gradient Boosting Machines (GBM)，73页ppt

专知会员服务

52+阅读 · 2020年6月21日

自回归模型:PixelCNN

专知会员服务

27+阅读 · 2020年3月21日

生成扩散模型漫谈：DDPM = 贝叶斯 + 去噪

PaperWeekly

1+阅读 · 2022年7月24日

生成扩散模型漫谈：DDPM = 自回归式VAE

PaperWeekly

2+阅读 · 2022年7月10日

多任务学习漫谈：分主次之序

PaperWeekly

0+阅读 · 2022年3月7日

多任务学习漫谈：行梯度之事

PaperWeekly

0+阅读 · 2022年2月18日

多任务学习漫谈：以损失之名

PaperWeekly

1+阅读 · 2022年1月26日

再谈变分自编码器（VAE）：估计样本概率密度

PaperWeekly

3+阅读 · 2021年12月23日

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

再谈变分自编码器VAE：从贝叶斯观点出发

PaperWeekly

13+阅读 · 2018年4月2日

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

VAE、GAN、Info-GAN：全解深度学习三大生成模型

数据派THU

20+阅读 · 2017年9月23日

随机微分方程解的稳定性和矩有界性

国家自然科学基金

0+阅读 · 2015年12月31日

H-半变分不等式及非凸约束问题

国家自然科学基金

0+阅读 · 2014年12月31日

随机变量结构的模型论

国家自然科学基金

0+阅读 · 2013年12月31日

条件模型的计量经济学方法探讨及应用

国家自然科学基金

1+阅读 · 2013年12月31日

具非线性边界源或加权反应项的扩散模型解的性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

框架理论及其在采样定理中的应用

国家自然科学基金

2+阅读 · 2012年12月31日

三峡库区典型顺向岸坡库水与降雨联合作用失稳观测与理论解析

国家自然科学基金

0+阅读 · 2012年12月31日

多复变全纯函数空间及其空间上的复合算子

国家自然科学基金

0+阅读 · 2011年12月31日

流感病毒血凝素蛋白进化分歧点抗原性转变的分子基础研究

国家自然科学基金

0+阅读 · 2009年12月31日

关于矩阵元素的组合分析

国家自然科学基金

0+阅读 · 2009年12月31日

Module-wise Training of Residual Networks via the Minimizing Movement Scheme

Arxiv

0+阅读 · 2022年10月3日

Robust Empirical Risk Minimization with Tolerance

Arxiv

0+阅读 · 2022年10月2日

Generative Model Watermarking Based on Human Visual System

Arxiv

0+阅读 · 2022年9月30日

Diffusion-based Image Translation using Disentangled Style and Content Representation

Arxiv

0+阅读 · 2022年9月30日

Boosting Discriminative Visual Representation Learning with Scenario-Agnostic Mixup

Arxiv

0+阅读 · 2022年9月29日

Maximum likelihood estimation of the Weibull distribution with reduced bias

Arxiv

0+阅读 · 2022年9月29日

SDD-FIQA: Unsupervised Face Image Quality Assessment with Similarity Distribution Distance

Arxiv

13+阅读 · 2021年3月10日

Semi-supervised Medical Image Segmentation through Dual-task Consistency

Arxiv

14+阅读 · 2020年9月9日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Demystifying MMD GANs

Arxiv

12+阅读 · 2018年1月12日

VIP会员