低层视觉中的扩散模型：综述

由于其强大的生成能力，深度生成模型在低层视觉任务领域引起了广泛关注。其中，以扩散模型为基础的解决方案，因其通过正向扩散过程破坏图像和逆向去噪过程生成图像的特点，而广受赞誉。这些模型能够生成质量高且多样性丰富的样本，确保生成具有复杂纹理信息的视觉效果。尽管它们在低层视觉中的成功和广泛应用显著，但缺乏一篇全面且有启发性的综述来整合这些开创性的扩散模型研究并组织相关内容。为填补这一空白，本文提出了首个聚焦于低层视觉任务中去噪扩散模型技术的全面综述，涵盖了该领域的理论和实践贡献。我们展示了三种通用的扩散建模框架，并探讨了它们与其他常用深度生成模型的关系，从而为后续分析奠定理论基础。随后，我们从多角度对低层视觉任务中使用的扩散模型进行了分类，考虑了基础框架和目标任务。此外，除了自然图像处理方法外，我们还总结了在其他低层视觉任务中应用的扩展扩散模型，包括医学、遥感和视频场景。我们概述了低层视觉任务中常用的基准测试和评估指标，并对三项主要任务中的扩散模型技术进行了全面评估，涵盖了性能和效率。最后，我们阐明了当前扩散模型的局限性，并提出了七个未来研究的有趣方向。本综述旨在促进对低层视觉任务中去噪扩散模型的深刻理解。对于感兴趣的读者，可以在https://github.com/ChunmingHe/awesome-diffusion-models-in-low-level-vision找到一份包含超过20个低层视觉任务的扩散模型技术、数据集及其他相关信息的精选列表。

作为计算机视觉的一个重要组成部分，低层视觉任务旨在改善由于复杂场景导致的低质量数据，并在图像超分辨率[1]、去模糊[2]、去雾[3]、图像修复[4]、融合[5]、压缩感知[6]、低光增强[7]和遥感云去除[8]等方面有着广泛且实际的应用。请参见图1中的视觉结果。

传统方法[13], [14]将问题表述为变分优化挑战，并采用手工设计的算法来解决与特定图像属性或降解先验相关的近似约束[15], [16]。然而，这些方法由于缺乏通用性，无法应对复杂的降解问题。随着深度学习的出现，卷积神经网络（CNN）[17]和Transformers[18]因其强大的特征提取能力被广泛应用于低层视觉任务。此外，丰富数据集的收集，如超分辨率中的DIV2K[19]和去雨中的Rain800[20]，进一步促进了其通用性。尽管这些技术在PSNR和SSIM等基于失真的指标上取得了可喜的结果，但它们在纹理生成方面表现不佳，限制了其在现实场景中的应用。

为应对此局限，深度生成模型，尤其是生成对抗网络（GANs）[21]，被引入到低层视觉领域。得益于其强大的生成能力，这些网络有望合成真实的纹理细节，从而扩展到现实世界的应用。然而，这些策略仍面临几个关键挑战：(1) 训练过程容易受到模式崩溃和不稳定优化的影响，需要在训练期间进行复杂的超参数调优。(2) 生成的结果仍可能出现伪影和反事实细节，破坏全局一致性，限制了其适用范围。

一种新型深度生成模型，称为扩散模型（DMs）[22]-[30]，最近因其卓越的生成能力和训练稳定性成为计算机视觉领域的热门话题。扩散模型的特点在于正向扩散阶段和逆向扩散阶段，通过引入噪声系统性地扰动数据，然后学习逆转这一过程以生成样本。作为基于似然的模型，扩散模型将其训练目标表述为重加权变分下界，以其广泛的分布覆盖、稳定的训练目标和简单的可扩展性而受到好评。

利用上述优势，扩散模型在多个领域中取得了显著成功，包括数据生成、图像内容理解和低层视觉。在低层视觉领域，扩散模型[9], [10], [31], [32]主要集中于低质量数据的恢复，确保重建的高质量数据具有精确的语义信息和逼真的纹理细节，即使在复杂且严重降解的现实场景中也是如此。如图1所示，许多基于扩散模型的算法在各种低层视觉任务中表现出色。然而，不同任务中使用的技术表现出显著的多样性和复杂性，使其难以理解和改进，从而对未来发展和通用重建模型的引入构成了障碍。因此，迫切需要一篇结构良好且全面的低层视觉任务中基于扩散模型的综述。然而，大多数现有的基于扩散模型的综述[33]-[36]侧重于基础理论模型和生成技术的发展。只有少数综述[37]-[39]集中于自然图像场景中的某一特定问题或少数有限任务。

为满足领域需求并弥补上述缺陷，我们提出了首个针对低层视觉任务的基于扩散模型的综述（见图2和图3）。本综述包括详细的理论介绍、广泛的应用范围、全面的实验分析和广泛的未来展望。具体来说，我们在第2节全面介绍了扩散模型的基本原理，阐明了扩散模型与其他深度生成模型之间的联系和相互关系。然后，我们在第3节总结了现有的前沿基于扩散模型的自然低层视觉方法，基于基础框架和目标任务对其进行分类，包括六个广泛使用的任务。接着，我们在第4节扩展到更广泛的场景，包括医学、遥感和视频场景，旨在提供应用范围广泛的综合概述。此外，第5节汇编了30多个常用基准测试和10多个基本评估指标。在三个主要任务（超分辨率、图像去模糊和低光图像增强）的相关设置中，我们提供了基于扩散模型方法的丰富实验。最后，我们在第6节中指出了现有低层视觉任务中基于扩散模型方法的局限性，并提出了未来研究和改进的三个主要潜力方向，并在第7节总结了本综述。

我们希望这篇基于扩散模型的综述，旨在促进对低层视觉领域的理解，能够激发计算机视觉社区的进一步兴趣并促进相关研究工作。