扩散模型和标准流如何用？阿姆斯特丹Emiel博士论文《离散数据和几何数据的标准流和扩散模型》171页pdf详述标准流和扩散模型

标准流和扩散模型是深度生成模型中代表性方法，阿姆斯特丹大学Emiel Hoogeboom博士论文《离散数据和几何数据的标准流和扩散模型》，详细阐述了两种生成模型在离散几何数据上的应用。

**作者：**Emiel Hoogeboom

**Emiel Hoogeboom是阿姆斯特丹大学的一名博士生，**导师是Max Welling。

https://ehoogeboom.github.io/

**《离散数据和几何数据的标准流和扩散模型》 **

**深度生成模型正变得越来越流行和有影响力。这项技术的应用范围很广，从照片编辑、语音合成到药物发现。**本文分析并改进了两种类型的生成模型的灵活性:标准流和扩散模型。具体来说，在本文的第一部分中，我们的目标是通过发明构建可逆卷积层的新方法，使标准流更具表现力。从线性代数和傅里叶分析可以看出，可以选择不同的结构。此外，我们探索了为离散空间定义标准流和扩散模型的方法。我们找到了可以成功优化的新模型配方。这些新模型的某些变体有一个实用的副产品:它们可以有效地应用于无损压缩。此外，我们将看到这些新的离散扩散模型之一连接了许多著名的生成模型。它弥合了离散扩散、自回归模型和掩码语言模型之间的差距。最后，设计了一种用于三维分子生成的标准流和扩散模型。为了模拟离散的原子类型，我们将结合我们的新技术来操作离散空间。此外，由于分子生活在物理空间中，我们将证明考虑位置信息的欧氏对称性是很重要的。

1. 引言

**深度学习范式已经改变了多个领域，目前正在许多科学领域进行探索。可以说，这一成功始于ImageNet竞赛，其中一个模型将图像作为输入，并需要预测该图像属于1000个类别中的哪个类别，例如“考拉”，“河鲀”和“烤面包机”。**让变量x指向一个图像，例如，一个向量，其中每个元素代表一个像素值。从概率的角度来看，这项任务可以框架为给定图像x对特定类别y的概率进行建模，简而言之:p(y|x)是什么?2012年，深度卷积网络[104]的表现超过了其非基于深度学习的方法。此外，从那一刻起，接下来的每一年也都是通过深度学习方法获胜。从那时起，深度学习已经超越图像应用于不同类型的数据，如音频、视频、文本、图形和分子。除了越来越多的数据源，需要在这些数据上学习的任务也变得越来越具有挑战性。其中一个基本任务是生成模型，以创建看似来自给定数据的相同分布的数据。从概率的角度来看，生成模型旨在学习分布p(x)，从中我们可以提取样本x⇠p(x)以生成新数据。使建模p(x)比建模p(y|x)困难得多的关键因素是x的高维性，而y是一维的。事实证明，在高维变量上指定灵活的分布是非常困难的。

生成模型是非常基本的，它们的原理出现在许多应用中，对于这些应用来说，它们共享的许多特征可能并不明显。生成模型目前正在公司中用于语言翻译、图像超分辨率、材料发现、照片编辑、视频特效、文本音频和虚拟助手。由于高维建模的固有难度，存在许多不同类型的生成模型。目前，它们可以大致量化为六类:自回归模型(ARMs)、变分自编码器(vae)、生成对抗网络(GANs)、标准化流(NFs)、基于能量的模型(EBMs)和(基于分数的)扩散模型。

**本文研究了在各种环境下的两个生成模型:标准流和扩散模型。**标准流之所以有吸引力，是因为它们可以计算精确的可能性，而不是依赖于下限。这个特性源于变量替换公式的使用。扩散模型特别有趣，因为它们在训练规模期间的计算成本与其他生成模型相比具有优势:以前对于VAE来说需要一个大型集群，但可以在单个GPU上训练具有同等质量的扩散模型。尽管存在这些差异，但随着研究的进展，这些模型之间的联系越来越多。通常，模型类的优缺点不仅取决于它们所属的类，还取决于所使用的特定实现和体系结构。

研究问题1:如何构建可逆卷积层来标准化流?

标准化流的一个大问题是找到可验证可逆的变换，并且可以高效地计算雅可比行列式。对于全连接矩阵乘法，一个选择是学习矩阵分解。然而，深度学习架构通常通过参数共享来表现良好，例如在卷积层中。对于这些层，没有已知的分解。在第4章中，我们将探索构建线性卷积流的方法，这些方法可以用作标准化流的构建模块，以提高其灵活性和性能。本文提出三种变体，它们都有各自的优点和缺点:基于三角卷积分解的新兴卷积，基于傅里叶变换的周期卷积，以及基于矩阵指数的卷积指数。所有提出的方法都优于现有方法。

研究问题2:如何定义离散变量的标准化流?

标准化流通常是针对连续变量定义的，因为它们依赖于变量变化公式。这可能会带来问题，因为许多数据源是离散的(或离散化的)，例如8位图像、音频、视频和文本。在第5章中，我们提出了新的标准化流来处理离散数据，包括整数值和类别数据:整数离散流和Argmax流。与现有方法相比，这些模型是有竞争力的，并允许对离散变量模型的新见解。此外，整数流是无损压缩的自然模型，甚至可以轻松地针对特定类型的数据进行调整。

研究问题3: 如何用离散潜空间定义扩散模型?

扩散模型与标准化流有类似的问题:它们通常用连续隐空间定义，对整数数据可以很好地工作，但对文本等分类数据就不行了。在第6章中，我们将探索直接在离散空间中定义的新扩散模型，为用扩散模型建模类别数据开辟了可能性。它们是离散扩散模型和自回归模型之间的深度联系，通过顺序不可知的自回归模型。提出了两种新的扩散方法:多项扩散和自回归扩散模型。有趣的是，最后一种模型也是无损压缩的自然模型。

研究问题4: 我们如何创建一个强大的生成模型来生成3D分子?

分子生活在物理3D空间中，服从欧氏对称性，这意味着它们的全局方向和平移不会影响分子的含义。理想情况下，此类数据的生成模型不应该受到方向或转换的变化的影响。简而言之，我们希望模型是等变的(或在某些情况下不变)。在第7章中，我们将介绍两个生成模型，它们与上述来自数学群E(3)的欧氏对称性等变。首先引入了E(3)等变归一化流(E- nfs)，该流能够生成具有高稳定性的分子。用E(3)等变扩散模型(EDMs)改进了E- nfs，该模型更容易扩展，因此生成的分子更稳定。