扩散模型是一种强大且通用的生成式人工智能技术,在计算机视觉、音频、强化学习和计算生物学中取得了巨大的成功。在这些应用中,扩散模型提供了灵活的高维数据建模,并作为采样器在主动引导下生成具有任务所需属性的新样本。尽管在实践中取得了显著的成功,但扩散模型的理论研究非常有限,这可能会减缓原则上的方法论创新,进一步利用和改进扩散模型。在本文中,我们回顾了扩散模型的新兴应用,理解其在各种控制下的样本生成。接下来,我们概述了扩散模型的现有理论,包括其统计特性和采样能力。我们采取渐进式的程序,从无条件扩散模型开始,并连接到有条件的对应物。此外,我们通过有条件的扩散模型回顾了高维结构优化的新途径,其中解决方案的搜索被重新定义为条件采样问题,并由扩散模型解决。最后,我们讨论了扩散模型的未来方向。本文的目的是为促进前瞻性的理论和扩散模型的方法提供全面的理论阐述。
引言
人工智能(AI)领域已经被生成模型革命化,特别是大型语言模型和扩散模型。被认为是基础模型的这些模型,经过了大量数据的训练,为机器学习研究和应用开辟了生机勃勃的可能性。大型语言模型专注于基于上下文生成连贯的文本,而扩散模型擅长建模复杂的数据分布并生成多样化的样本,这些都在各个领域广泛应用。受热力学建模的启发,扩散模型近年来取得了突破性的表现,超越了之前的最佳技术,如生成对抗网络(GANs)和变分自编码器(VAEs)。扩散模型在计算机视觉和音频生成任务中得到了广泛应用,并进一步用于文本生成、序列数据建模、强化学习和控制,以及生命科学。关于应用的更全面的阐述,我们推荐读者查阅综述文章。
扩散模型的卓越表现对于许多方法论创新至关重要,这些创新显著扩展了扩散模型的应用范围并提升了其功能,使得高保真生成、高效采样和灵活控制样本生成成为可能。例如,将扩散模型扩展到离散数据生成,而标准扩散模型则针对连续数据。同时,还有一系列积极的研究旨在加速扩散模型的样本生成速度。最后,最近的研究浪潮集中于微调扩散模型,以生成具有所需属性的样本,如生成具有特定美学品质的图像。这些特定任务的属性通常作为引导编码到扩散模型中,包括条件和控制信号以引导样本生成。值得注意的是,引导允许在广泛的应用中创建多样化和相关的内容,这突出了扩散模型的多功能性和适应性。我们将带引导的扩散模型称为有条件的扩散模型。尽管实证进展迅速,扩散模型的理论研究却远远落后。一些最新理论将扩散模型视为一个无监督的分布学习者和采样器,因此建立了它们的采样收敛保证和统计分布学习保证。这些结果为扩散模型在复杂数据建模的效率和准确性提供了宝贵的理论洞见,主要关注在分布估计中的无条件扩散模型。这在理论和实践之间为有条件的扩散模型留下了差距。具体而言,缺乏一个理论基础来支持和激励有原则的方法论,用于引导设计和适应扩散模型以满足特定任务的需求。
本文旨在为扩散模型提供当代的阐释,以激发对它们的复杂和前瞻性研究。我们主要关注扩散模型的以下基本理论问题:• 扩散模型能否准确有效地学习数据分布?如果可以,其样本复杂性尤其是对结构化数据的复杂性是多少?• 有条件的扩散模型能否生成与引导一致的分布?如果可以,我们如何正确设计引导,其样本复杂性是多少?为了系统研究,我们首先回顾扩散模型的工作原理及其新兴应用。然后,我们概述了与上述问题相关的现有理论基础。我们的最终目标是展示和利用扩散模型的力量,将其与应用数学、统计学、计算生物学和运筹学等广泛的跨学科领域相联系。
【论文组织】
本文的其余部分组织如下。在第2节,我们使用随机微分方程对扩散模型进行连续时间描述。连续时间观点的优势在于其清晰和系统的公式化,以及无缝应用离散化方案以复制实际实现。在第3节,我们回顾了扩散模型的新兴应用,尤其是在各种受控生成任务中,旨在阐明扩散模型试图捕获的条件分布。然后,在3.4节中,我们通过评估受控生成样本的质量来将条件生成与黑箱优化联系起来,使用奖励函数进行评估。在第4节,我们深入讨论理论初步并回顾扩散模型的理论。具体来说,在4.1节中,我们讨论如何学习评分函数。4.2节提供了理解学习评分的适当神经网络结构和估计评分函数的统计样本复杂性的近似理论。然后,4.3节讨论了使用扩散模型和采样理论进行分布估计的统计样本复杂性。在第5节,我们继续在第4节中的类似研究,关注有条件的扩散模型。我们在5.1节中介绍有条件评分函数的学习方法,并将其与所谓的“引导”术语下的无条件评分联系起来。这也激励了有条件扩散模型的微调方法。5.2节然后总结无条件评分的近似、估计和分布学习理论。5.3节重新讨论有条件评分函数中的引导,并建立引导影响的理论洞见。在第6节,我们回顾使用有条件扩散模型的数据驱动黑箱优化的理论和方法论。我们强调扩散模型生成的高保真解决方案保留了数据潜在结构,并且解决方案的质量与最优离策略套利一致。这为通过扩散模型在高维复杂和结构化空间中的优化开辟了新的可能性。最后,在第7节,我们讨论扩散模型的未来方向及其与广泛研究领域的联系。
扩散模型基础
大致而言,扩散模型包括一个前向过程和一个后向过程。在前向过程中,数据分布中的干净样本会被高斯随机噪声逐步污染,在无限时间极限下,数据分布会转变为纯噪声。在后向过程中,一个去噪神经网络被训练以逐步去除数据中增加的噪声分布并恢复新的干净数据分布。前向和后向过程在图1中展示。
扩散模型应用
通过广泛的发展[7, 9, 10, 94],现代扩散模型取得了惊人的成功,并被应用于各种应用中(例如,参见综述[55])。我们在下文中重点介绍扩散模型的广泛应用,特别强调用于受控样本生成的有条件扩散模型。
视觉与音频生成
在图像和音频生成任务中,扩散模型实现了最先进的性能[7-22],并且是图像和音频合成系统的基本构建块,例如DALL-E [66]、稳定扩散[101]和Diffwave [11]。扩散模型的性能以高保真样本生成著称,并允许灵活的引导来控制生成。在引导下生成的最简单示例是生成特定类别的图像,例如猫或狗。这种分类信息被视为条件信号并输入到有条件的扩散模型中。更详细地说,我们使用包含样本对(xi, yi)的标记数据集来训练有条件的扩散模型,其中yi是图像xi的标签。训练是为了使用数据集估计条件评分函数,模拟x和y之间的对应关系。通过这种方式,有条件的扩散模型正在学习条件分布P(x = image | y = given label),并允许从该分布中采样。在文本到图像合成系统中,条件信息是输入文本提示,可以是包含对象的句子或更抽象的要求,例如,美学质量。为了生成与提示对齐的图像,有条件的扩散模型与包括图像和文本摘要对(xi, yi)的大量注释数据集一起训练。文本yi将被转换为词嵌入并作为输入到有条件的扩散模型中。与在特定类别中生成图像类似,文本到图像合成的有条件扩散模型学习条件分布P(x = image | y = text prompt)并允许从中采样。在更复杂的合成系统中,实施了一些微调步骤,以进一步实现抽象提示条件化并提高生成图像的质量。例如,[78]将离散化的后向过程(2)重新表述为有限视界的马尔可夫决策过程(MDP)。状态空间代表图像,条件评分函数被视为策略,定义了一个奖励函数来衡量图像与其期望文本提示的对齐程度。因此,生成与提示对齐的图像相当于通过找到最优策略来优化奖励。[78]提出了一种基于策略梯度的方法,用于微调预训练的扩散模型。在图2中,我们展示了使用[78]中的方法微调有条件的扩散模型从左到右的逐步改进。有条件的扩散模型也是图像编辑和恢复[102-109]以及音频增强[110-113]的强大工具;另见综述[22, 56]及其中的参考文献。为了展示这一点,我们以图像修复任务为例。修复的目标是预测图像的缺失像素。我们将图像的已知区域表示为y,原始完整图像表示为x。那么修复就归结为从条件分布P(x = full image | y = known region of the image)中采样x。在所有这些应用中,有条件的扩散模型被证明在模拟条件分布方面具有高度的表现力和有效性[10, 107]。
控制与强化学习
除了主要的计算机视觉和音频任务外,扩散模型也在强化学习(RL)和控制问题中积极部署,并展现出吸引人的性能。例如,[30-33, 35] 使用有条件的扩散模型来参数化在高度复杂任务中的控制/RL策略,例如机器人控制和人类行为模仿。关于扩散模型与RL之间联系的扩展回顾可以在[34]中找到。在RL/控制问题中,策略是基于底层动态系统状态的动作空间上的条件概率分布。相应地,当使用扩散模型来参数化策略时,目标是学习分布P(a = action | y = system states)。[30, 32]专注于模仿学习场景,其中的目标是模仿专家的行为。数据集包含由(yi, ai)对表示的专家演示。这里的yi是系统的状态,ai是专家选择的动作。类似于文本到图像的合成,我们使用数据集训练一个有条件的评分网络,以捕获状态与动作之间的依赖关系。在推断过程中,给定一个新的系统状态,我们使用学到的有条件扩散模型生成合理的动作。Diffusion-QL[114]进一步对有条件扩散模型的训练增加了正则化,并尝试基于预先收集的数据集学习最佳动作。扩散模型还为控制和RL问题中的算法设计开辟了一个新领域,通过将顺序决策视为生成序列建模。在RL中的典型奖励最大化规划任务中,目标是找到实现大量累积奖励的最佳策略。传统方法依赖于迭代解决贝尔曼最优性以获得相应的策略。然而,生成序列建模直接产生大奖励的状态-动作轨迹,避免了显式解决贝尔曼最优性。换句话说,生成序列建模直接从条件分布P(τ = state-action trajectory | τ attains large reward)中采样。早期成功是用变压器生成模型[115,116]演示的。后来,有条件的扩散模型以最先进的性能部署。即,Diffuser[117]通过有条件的扩散模型以高奖励为引导生成状态-动作轨迹。Decision Diffuser[118]呈现有条件的轨迹生成,将奖励、限制或技能作为引导并增强Diffuser的性能。例如,给定一个由(τi, yi)组成的预收集数据集,其中τi是状态-动作轨迹,yi是τi的累积奖励。我们使用有条件的扩散模型来模拟条件分布P(τ | y),通过估计条件评分函数。训练后,我们指定一个合适的目标奖励值并部署有条件的扩散模型生成样本轨迹。然后可以通过逆动力学模型[119]从生成的轨迹中提取出策略。见图3中决策扩散器的工作流程。AdaptDiffuser[120]进一步引入了一个鉴别器用于微调有条件的扩散模型,允许自我进化和适应分布外任务。
生命科学应用
在生命科学应用中,有条件的扩散模型正产生着日益深远的影响[36-54]。另见关于生物信息学中扩散模型应用的综述[57]。这些成果涵盖了包括单细胞图像分析、蛋白质设计与生成、药物设计、小分子生成等多种任务。其性能超过了许多使用自回归、VAE或GAN类型深度生成模型[121-124]的前辈们。为了展示有条件扩散模型的使用,我们以蛋白质设计为例。蛋白质设计可以被视为寻找一定长度的序列w的问题,序列的每个坐标代表蛋白质的结构信息。一个蛋白质只有在活细胞中表达时才有用。一个广泛采用的有用性指标是蛋白质序列是自然序列的可能性[50]。此外,结合亲和力和聚集倾向也是蛋白质结构的重要属性。结合有用性指标,所有这些属性可以由向量值函数f(w)总结。在这个意义上,有条件的扩散模型实际上生成遵循条件分布P(w | f(w) ∈ E)的蛋白质序列,其中E是描述合理蛋白质结构的集合。有条件的扩散模型用于蛋白质生成的训练类似于文本到图像的扩散模型,基于包含具有测量属性的多样蛋白质结构的训练数据集。在推理阶段,我们可以首先从E中抽样一个配置,并以此配置为条件,生成新的蛋白质。
黑箱优化
在控制、强化学习和生命科学应用中,各种引导可以被概括为一个抽象的奖励函数V(·)。然后,目标是从一个条件分布中生成新样本,旨在优化奖励。因此,有条件的扩散模型充当优化器,生成最优解。我们重新访问RL中离线奖励最大化规划的例子。回忆一下,我们的数据集包括状态-动作轨迹τi和相关的累积奖励yi = V(τi)+ϵi,其中ϵi是独立的观察噪声。奖励最大化规划本质上寻求解决黑箱优化问题argmaxτ V(τ)。在这种设置中,我们禁止与目标函数V进行交互,超出给定的数据集[125]。早期的现有工作利用GANs生成最优解[126],但遭受训练不稳定和模式崩溃的问题。最近,[127]实证表明使用有条件的扩散模型生成高质量解决方案的性能优越。其思想是将黑箱优化问题转化为条件采样问题。具体来说,给定一个适当的目标值a,有条件的扩散模型从条件分布P(τ | V(τ) = a)中生成解决方案。微妙之处源于如何正确选择目标值a以确保生成解决方案的高质量。大致来说,我们试图选择一个较大的a,以便生成的解决方案获得大奖励。然而,如果我们选择的a与给定数据集相比太大,则需要进行显著的外推以生成相应的解决方案,这可能导致质量下降。因此,对a的适当选择在很大程度上取决于收集的数据集的覆盖范围。[128]提供了如何选择a以确保生成良好解决方案的理论指导,我们将在第6节介绍。从经验上看,[127]提出了几种方法在有条件的扩散模型的训练过程中鼓励大奖励解决方案,如样本重加权——为具有大奖励的样本分配大权重。
4 无条件扩散模型的理论
进展本节回顾了扩散模型理论理解方面的最新进展。我们从第2节回忆,评分函数是实施扩散模型的关键。从理论角度看,扩散模型的性能与评分函数是否可以准确学习密切相关。为了系统处理,我们首先介绍学习评分的方法,然后深入其理论洞察。具体来说,我们讨论如何根据神经网络的通用和自适应逼近能力,正确选择用于学习评分函数的神经网络。更重要的是,我们展示了由数据分布假设引起的评分函数中的结构属性,例如,低维支持和图形模型。然后我们提供了使用所选神经网络估计评分的统计样本复杂性。我们特别感兴趣的是理解评分估计如何在高维环境中规避维数灾难问题。最后,我们研究估计数据分布的统计率。
5. 有条件扩散模型的理论进展
虽然有条件扩散模型与其无条件对应物有许多共同特征,但它们对引导的独特依赖需要新的理解和洞见。因此,关于有条件扩散模型的理论结果非常有限。在本节中,我们模仿无条件扩散模型的研究,但对有条件扩散模型的不同用途和方法给予额外的强调。我们首先介绍有条件扩散模型的训练,即估计条件评分函数。有趣的是,条件评分函数可以与无条件评分函数相关联,这激发了训练有条件扩散模型的微调视角。接下来,我们介绍条件评分估计和分布估计保证。最后一节致力于探讨引导在高斯混合模型中的影响的理论洞见,我们在这里证实了常见观察并揭示了新奇的发现。
扩散模型用于优化
本节介绍了通过扩散模型在高维复杂和结构化空间中进行优化的新途径。我们专注于数据驱动的黑箱优化,其目标是生成优化未知目标函数的新解决方案。黑箱优化,也被称为机器学习中的基于模型的优化,涵盖了各种应用领域,如强化学习、计算生物学和商业管理[54, 57, 118, 188-192]。 解决数据驱动的黑箱优化不同于传统优化,因为与目标函数的交互超出预先收集的数据集是被禁止的,减少了逐步寻找最优解的可能性。相反,人们的目标是从预先收集的数据集中提取相关信息并直接推荐解决方案。更复杂的是,解决方案空间通常是高维的,具有丰富的潜在结构。例如,在药物发现中,分子结构需要满足全局和局部规律性,以便在生物体中表达。这对解决数据驱动的黑箱优化提出了一个关键要求:我们需要捕获数据潜在结构,以避免提出严重偏离原始数据域的不切实际的解决方案。 为了应对这些挑战,[176]将数据驱动的黑箱优化表述为从条件分布中采样,如图8所示。目标函数值是条件分布中的条件,同时该分布隐式地捕获数据潜在结构。
8 结论
在本文中,我们综述了扩散模型如何生成样本、它们的广泛应用以及它们的现有理论基础。我们采用了扩散模型中前向和后向过程的连续时间描述,并讨论了它们的训练程序,特别是在存在引导以引导样本生成的情况下。我们从无条件扩散模型的理论入手,涵盖了其评分近似、统计估计和采样理论。在无条件扩散模型的洞察基础上,我们转向了有条件扩散模型,重点关注它们的独特设计属性和理论。接下来,我们将生成性扩散模型与黑箱优化相联系,为高维优化问题铺平了新的道路。最后,我们讨论了几个流行的未来方向。