扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

2022 年 9 月 8 日 专知

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程，在复杂的图像分布和高斯分布之间建立联系，使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。在生成效果上，扩散模型可以媲美广受欢迎的GAN的方法，并且相比GAN，扩散模型是基于最大似然的生成模型，在训练时不会遇到模式崩塌和不稳定的情况。此外GAN的discriminator的判别能力限制了GAN的生成多样性，而扩散模型的多样性更为丰富，并且在有条件生成任务中，由于扩散模型是从随机的噪声开始采样，即使对于同一张参考，扩散模型也可以给出理论上无限多的采样结果。这一特征在实际应用中颇为重要，目前已有不少工作将有条件生成的扩散模型运用在文字/分割图/简笔画到图像生成、图像编辑、超分辨率等任务中，取得不少成果。

https://nn.labml.ai/diffusion/ddpm/index.html

去噪扩散概率模型（DDPM）

研究者使用扩散模型作为生成模型。与其他生成模型一样，DDPM 学习给定训练集中图像的分布。在推理过程中，首先采样一个随机噪声向量 x_T 并逐步对其进行去噪，直到它生成高质量输出图像 x_0。在训练过程中，DDPM 方法定义一个扩散过程，从而在 T 个时间步内将图像 x_0 转换为高斯白噪声（white Gaussian noise） x_T ∼ N (0, 1)。前向中的每一步如下公式 (1) 所示：

训练 DDPM 以反转公式 (1) 中的过程。反转过程通过一个「预测高斯分布参数 µ_θ(x_t, t)和Σ_θ(x_t, t)」的神经网络进行建模。具体如下公式 (2) 所示：

公式 (2) 中模型的学习目标通过变分下界（variational lower bound）得到，具体如下公式 (3) 所示：

根据 Jonathan Ho 等人在论文《Denoising Diffusion Probabilistic Models》中的扩展，损失（loss）可以进一步分解为如下公式 (4) 所示：

在 Jonathan Ho 等人的这篇论文中，他们认为参数化模型的最佳方法是对添加到当前中间图像 x_t 的累积噪声ϵ_0 预测。如下公式 (5) 所示，研究者对预测的平均值 µ_θ(x_t, t)进行参数化表示。

为了训练 DDPM，研究者需要一个样本 x_t 以及相应的用于将 x_0 转换为 x_t 的噪声。最后，他们可以对公式 (1) 进行重写，作为一个单步执行，具体如下公式 (7) 所示

参照链接：

https://mp.weixin.qq.com/s/dFasa-A07AiV3cwvFW7OWA

附：CVPR 2022教程

去噪扩散模型，也被称为基于分数的生成模型，是最近出现的一个强大的生成模型类别。它们在高保真图像生成方面表现出惊人的结果，甚至常常超过生成对抗网络。重要的是，它们还提供了较强的样本多样性和对已学习数据分布的保真模式覆盖。这意味着去噪扩散模型非常适合学习复杂多样的数据模型。去噪扩散模型定义了一个正向扩散过程，通过逐渐扰动输入数据将数据映射到噪声。数据生成是通过一个学习的、参数化的反向过程实现的，该过程执行迭代去噪，从纯随机噪声开始(见上图)。虽然扩散模型相对较新，但它们已经发现了许多成功的应用。例如，它们已经在计算机视觉中用于图像编辑、可控、语义和文本驱动的图像合成、图像到图像的翻译、超分辨率、图像分割以及三维形状生成和完成。

在本教程中，我们介绍了去噪扩散模型的基础，包括他们的离散步骤的公式以及他们的基于微分方程的描述。我们还讨论了与实践者相关的实际实施细节，并强调了与其他现有生成模型的联系，从而将去噪扩散模型置于更广泛的背景中。此外，我们回顾了近年来加速采样、条件生成等方面的技术扩展和先进方法。采样速度慢一直是扩散模型去噪的主要缺点。然而，已经出现了许多有希望克服这一挑战的技术。最近去噪扩散模型在高分辨率条件生成任务中也取得了惊人的进展，例如文本到图像的生成，我们讨论了实现这一目标的几个关键的先进技术。为了展示去噪扩散模型如何适合视觉用例，我们也回顾了在计算机视觉中的成功应用。

专知便捷查看