《基于扩散模型的条件图像生成》综述

摘要——基于用户指定要求的条件图像生成是创建复杂视觉内容的关键组件。近年来，基于扩散的生成模型已成为条件图像生成的一个非常有效的方法，导致了相关文献的爆炸式增长。然而，扩散模型的复杂性、图像生成任务的广泛性以及条件机制的多样性，为研究人员跟上快速发展的步伐并理解该主题的核心概念带来了巨大挑战。在本综述中，我们根据条件如何融入扩散模型的两个基本组件（即去噪网络和采样过程）对现有工作进行分类。我们特别强调了在训练、重用和专门化阶段构建理想去噪网络时，各种条件方法的基本原理、优点和潜在挑战。我们还总结了在核心采样过程中使用的六种主流条件机制。所有讨论都围绕流行的应用展开。最后，我们指出了一些关键但仍未解决的未来问题，并提出了一些可能的解决方案。我们审阅的相关工作列在 https://github.com/zju-pi/Awesome-Conditional-Diffusion-Models。

关键词——生成模型，扩散模型，条件图像生成，条件集成。

I. 引言

图像生成是生成式人工智能的一个重要任务。当结合用户提供的条件来生成符合不同用户需求的图像时，它的实用性会更大。早期的研究在各种条件图像生成任务中取得了重大突破，如文本到图像生成 [37, 41, 156, 159, 239]、图像修复 [87, 88, 125, 210] 和图像编辑 [1, 10, 107]。然而，早期基于深度学习的生成模型（如生成对抗网络 (GANs) [49, 131]、变分自编码器 (VAEs) [81, 185] 和自回归模型 (ARMs) [199, 200]）在条件图像生成中的表现并不令人满意，这是由于它们的内在局限性：GANs 容易出现模式崩溃和训练不稳定的问题 [49]；VAEs 通常生成模糊的图像 [81]；而 ARMs 则存在顺序误差积累和耗时巨大的问题 [200]。

近年来，扩散模型 (DMs) 作为最先进的图像生成模型崭露头角，凭借其强大的生成能力和多功能性，得到了广泛认可 [20, 57, 71, 184, 191]。在扩散模型中，图像是通过引导去噪网络预测的迭代去噪步骤从高斯噪声中生成的。这种独特的多步采样过程使得扩散模型能够实现出色的生成性能，表现为稳定的训练、丰富的输出和卓越的样本质量。此外，与一步生成模型相比，扩散模型在促进条件集成方面具有独特优势。这些优点使得扩散模型成为条件图像生成的首选工具，近年来基于扩散的条件图像生成 (DCIS) 研究得到了迅速发展 [25, 45, 56, 75, 118, 160, 167, 168, 209, 242, 247]。图1展示了使用多种输入模态的七个流行的 DCIS 任务。

随着相关研究的快速扩展，模型架构、训练方法和采样技术的众多变化，以及潜在的条件生成任务的广泛性，研究人员很难全面掌握 DCIS 的全貌。这种复杂性对该领域的新手来说尤为具有挑战性。当前需要的是一项系统性的综述，提供对这一快速发展的研究领域的全面且结构化的概述。

已有一些关于特定条件图像生成任务的综述，如图像修复 [238]、文本到图像生成 [103] 和图像编辑 [64]，或根据目标条件生成任务对计算机视觉领域的相关工作进行分类的研究 [32, 149]。虽然这些面向任务的综述为其各自目标任务的方法提供了宝贵的见解，但它们并未涵盖不同条件生成任务在模型框架中的共同特征，特别是在模型架构和条件机制方面。最近的两篇综述 [14, 182] 提供了基于扩散模型的广泛任务的概述，但它们的范围有限，主要集中于构建在文本到图像 (T2I) 框架上的 DCIS 工作，忽略了早期将条件集成到无条件去噪网络中的工作，或涉及从头开始训练特定任务的条件去噪网络的工作。这些早期工作为当前使用 T2I 框架的 DCIS 进展奠定了基础，并且在低级任务如图像修复中仍然广泛应用。此外，[182] 主要关注基于扩散模型的图像编辑框架，缺乏对该领域其他任务统一框架的系统分析，而 [14] 并未深入探讨模型架构的设计选择和采样过程中详细的条件机制。因此，它们的分类方法缺乏系统性，并遗漏了 DCIS 领域中的一些关键相关工作。

相较之下，本综述旨在提供一个全面且结构化的框架，涵盖当前广泛的 DCIS 研究工作，基于 DCIS 框架中条件集成的主流技术提供分类方法。我们对构建具有条件集成的 DCIS 框架所涉及的组件和设计选择进行了清晰而系统的分解。具体来说，我们通过审查和总结现有的 DCIS 方法，探讨条件如何集成到扩散建模的两个基本组件中：去噪网络和采样过程。在去噪网络方面，我们将构建条件去噪网络的过程分为三个阶段。在采样过程中，我们将六种主流的采样中条件机制进行分类，详细说明控制信号如何集成到采样过程的各个组件中。我们的目标是为读者提供跨不同任务的现有 DCIS 工作的高层次和易于理解的概述，使他们能够设计适用于其所需任务的条件生成框架，包括尚未探索的新任务。

本综述的其余部分组织如下：首先在第二部分介绍扩散模型的背景和条件图像生成任务。接下来，我们在第三部分总结去噪网络中的条件集成方法，并在第四部分总结采样过程中的方法。最后，我们在第五部分探讨未来的潜在方向。图2展示了本文提出的 DCIS 分类体系。