图像恢复(IR)一直是低级视觉领域中不可或缺且具有挑战性的任务,旨在提高由各种形式的退化所扭曲的图像的主观质量。近期,扩散模型在AIGC的视觉生成方面取得了显著进展,从而引起了一个直观的问题,“扩散模型是否可以提升图像恢复”。为了回答这个问题,一些开创性的研究试图将扩散模型整合到图像恢复任务中,从而取得了比先前基于GAN的方法更好的表现。尽管如此,关于基于扩散模型的图像恢复的全面而有启发性的综述仍然很少。在本文中,我们是第一个全面回顾近期基于扩散模型的图像恢复方法的,涵盖了学习范例、条件策略、框架设计、建模策略和评估。具体来说,我们首先简要介绍扩散模型的背景,然后介绍两种在图像恢复中利用扩散模型的流行工作流。随后,我们分类并强调使用扩散模型进行IR和盲/实际世界IR的创新设计,旨在激发未来的发展。为了彻底评估现有的方法,我们总结了常用的数据集、实施细节和评估指标。此外,我们为开源方法在三个任务中提供了客观的比较,包括图像超分辨率、去模糊和修复。最后,受到现有工作中的限制的启发,我们为基于扩散模型的IR提出了五个潜在的并且具有挑战性的未来研究方向,包括采样效率、模型压缩、扭曲模拟和估计、扭曲不变学习和框架设计。
资源库将在 https://github.com/lixinustc/Awesome-diffusion-model-for-image-processing/ 上发布。
图像恢复(IR)一直是低层次视觉任务中的长期研究主题,在提高图像的主观质量方面发挥着不可替代的作用。流行的IR任务包括图像超分辨率(SR)[1-10]、去模糊[11-17]、去噪[18-25]、修复[26-31]和压缩伪影去除[32-38]等。一些IR任务的视觉示例显示在图1中。为了恢复扭曲的图像,传统的IR方法将恢复视为信号处理,并从空间或频率的角度使用手工制作的算法减少伪影[18, 39-44]。随着深度学习的发展,众多IR工作为各种IR任务定制了一系列数据集,例如,用于SR的DIV2K [45]、Set5 [46]和Set14 [47],用于去雨的Rain800 [48]、Rain200 [?]、Raindrop [49]和DID-MDN [50],以及用于运动去模糊的REDS [51]和Gopro [52]等。利用这些数据集,大多数近期的工作[1-3, 7-11, 13, 16, 19, 21-23, 32-34, 53-55]专注于通过基于卷积神经网络(CNNs)[56]或Transformer [57]的精心设计的骨干网络来提高IR网络针对复杂退化的表示能力。尽管这些工作在客观质量(例如,PSNR和SSIM)上取得了卓越的进展,但恢复的图像仍然受到不满意的纹理生成的困扰,这阻碍了IR方法在实际场景中的应用。
得益于生成模型的发展[58-66],尤其是生成对抗网络(GAN)[64],一些开创性的IR研究[5, 6, 67-70]指出,先前的像素级损失,例如MSE损失和L1损失容易受到模糊纹理的影响,并将GAN的对抗损失引入到IR网络的优化中,从而增强其纹理生成能力。例如,SRGAN [5] 和DeblurGAN [12]分别使用像素级损失和对抗损失的组合来实现以感知为导向的SR网络和去模糊网络。在他们之后,改进基于GAN的IR的两个主要方向是增强生成器(即恢复网络)[5, 6, 71-73]和鉴别器[74-77]。特别是,ESRGAN [6]引入了强大的RRDB [6]作为基于GAN的SR任务的生成器。三种流行的鉴别器,包括像素级鉴别器(U-Net形状)[74]、块级鉴别器[75, 78-80]和图像级鉴别器[76, 77](即VGG类似的架构)被设计来关注不同粒度级别的主观质量(即从局部到全局)。尽管有上述进展,但大多数基于GAN的IR研究仍然面临两个不可避免但至关重要的问题:1) 基于GAN的IR的训练容易受到模式腐败和不稳定优化的影响;2) 大多数生成的图像的纹理似乎是假的和与事实不符的。
近年来,扩散模型作为生成模型的一个新分支浮现出来,为视觉生成任务带来了一系列的突破。扩散模型的原型可以追溯到工作[81],并由DDPM [82]、NCSN [83]和SDE [84]进一步发展。一般来说,扩散模型由前向/扩散过程和反向过程组成,其中前向过程逐渐增加像素级噪声到图像,直到它满足高斯噪声,而反向过程旨在通过估算得分的去噪[83]或噪声预测[82]来重建图像。与GANs相比,扩散模型产生高保真度和多样化的生成结果,从而成功地替代了在一系列领域中的GANs,如视觉生成[82-86]和条件视觉生成[86-97]。随着视觉-语言模型的进步,扩散模型已被扩展到跨模态生成,如StableDiffusion [98]和DALLE-2 [99]。这极大地推动了人工智能生成内容(AIGC)的发展。我们已经在图2中根据时间线列出了基于扩散模型的代表性作品。
受到扩散模型优越的生成能力的启发,许多研究探索了它们在图像恢复任务中的应用,目标是促进纹理的恢复。根据训练策略,这些工作大致可以分为两类:1) 第一类[100–109]致力于通过有监督学习从零开始优化用于IR的扩散模型;2) 第二类(即零样本类)[110–117]努力利用预训练扩散模型中的生成先验用于IR。典型地,基于有监督学习的方法需要收集大规模的扭曲/清晰的图像对,而基于零样本的方法主要依赖已知的退化模式。这些局限性阻碍了这些基于扩散模型的方法在真实世界场景中的应用,其中的扭曲通常是多种多样和未知的。为了进一步解决上述问题,一些研究[118–123]已经扩展了扩散模型,通过结合真实世界的扭曲模拟、核估计、领域转换和扭曲不变学习来处理盲目/真实世界的图像恢复。
尽管扩散模型在图像恢复方面已经显示出显著的效果,但相关的技术和基准测试显示出相当的多样性和复杂性,这使它们难以被追踪和改进。此外,缺乏一个基于扩散模型的IR的综合性审查进一步限制了其发展。在本文中,我们首次回顾并总结了基于扩散模型的图像恢复方法的工作,旨在为图像恢复社区提供一个结构良好且深入的知识库,并促进其在该社区内的演变。
在这次综述中,我们首先在第2部分介绍扩散模型的背景,重点介绍三种基本的建模方法,即NCSN [83]、DDPM [82]和SDE [84],并从优化策略、采样效率、模型架构和条件策略的角度对扩散模型进行进一步的改进。基于这些初步信息,我们在第3部分从两个不同的方向阐明了扩散模型在图像恢复中的进展:1) 基于监督的扩散模型IR,和2) 基于零样本的扩散模型IR。在第4部分,我们总结了在更实用和具有挑战性的场景下基于扩散模型的IR,即盲目/真实世界的退化。这旨在进一步增强基于扩散模型的IR方法满足实际应用需求的能力。为了促进合理和详尽的比较,在第5部分,我们阐明了在不同的基于扩散模型的IR任务中常用的数据集和实验设置。此外,还提供了不同任务之间基准的综合比较。在第6部分,我们深入分析了基于扩散模型的IR的主要挑战和潜在方向。本次审查的最终结论总结在第7部分。
基于扩散模型的图像恢复方法
根据扩散模型(DMs)是否针对IR进行无需训练,我们初步将基于DM的IR方法分类为两大类,即监督型DM-based方法 [100, 105, 107, 108, 121, 191-194] 和零样本型DM-based方法 [112, 114, 115, 195-200]。特别地,监督型DM-based IR方法需要从头开始使用IR数据集的成对的扭曲/干净图像来训练扩散模型。与之前直接将扭曲图像作为输入的基于GAN的方法 [201–209] 不同,基于DM的IR采用精心设计的条件机制在反向过程中将扭曲的图像作为指导。尽管这种方法产生了有希望的纹理生成结果,但它遇到了两个显著的限制:1) 从零开始训练扩散模型依赖于大量的成对训练数据。2) 在现实世界中收集成对的扭曲/干净图像是具有挑战性的。相反,零样本型DM-based方法只需扭曲的图像,无需重新训练扩散模型,从而提供了一个吸引人的选择。它不是从IR的训练数据集中获得恢复能力,而是从预训练的扩散模型中挖掘并利用图像恢复的结构和纹理先验知识。这一核心思想源于直觉:预训练的生成模型可以被视为使用大量真实世界数据集(如ImageNet [210] 和FFHQ [211])构建的结构和纹理仓库。因此,零样本型DM-based IR方法面临的一个关键挑战是:如何在保持数据结构的同时提取相应的感知先验。在接下来的小节中,我们首先简要回顾代表性的监督型DM-based IR方法:SR3 [100],以及零样本型DM-based IR方法:ILVR [195]。然后,我们从条件策略、扩散建模和框架的角度对这两种方法进行进一步分类,这些总结在表1和表2中。此外,扩散模型的整体分类在图4中进行了说明。
扩散模型用于盲/真实世界的图像恢复
尽管第3节中的方法在图像恢复方面取得了巨大的突破,但其中大多数方法 [100, 101, 104, 112–114, 197, 218, 219] 都集中在解决合成扭曲问题上,它们通常在分布外(OOD)的真实世界/盲目退化条件下表现不佳。原因在于真实世界IR的固有挑战:1) 未知的退化模式很难被识别。2) 在现实世界中收集扭曲/干净的图像对是微不足道的,甚至是不可用的。为了克服这一点,先前的工作 [241–248] 尝试通过模拟真实世界的退化 [72, 241–244, 246] 和无监督学习 [245, 247, 248] 等方法来解决它。受此启发,一些开创性的工作 [117, 118, 120, 123, 221] 开始探索如何利用扩散模型解决真实世界的退化问题。在本文中,我们将基于DM的盲/真实世界IR [108, 109, 118–121, 123, 220–222, 226] 分为四类,即扭曲模拟 [118, 226],核估计 [119, 120],域转换 [122, 226],以及扭曲不变的扩散模型 [123, 222, 237]。
结论
本文为图像恢复 (IR) 的最近受欢迎的扩散模型提供了一个全面的评述,深入探讨了其显著的生成能力以增强结构和纹理恢复。首先,我们阐述了扩散模型的定义和演变。随后,我们从培训策略和退化场景的角度提供了现有作品的系统分类。具体来说,我们将现有的工作分为三个主要流程:有监督的 DM-based IR、零镜头的 DM-based IR 和基于盲/真实世界的 DM-based IR。对于每一个流程,我们基于技术提供了细粒度的分类,并详细描述了它们的优点和缺点。对于评估,我们总结了 DM-based IR 常用的数据集和评估指标。我们还在三个典型任务上,包括图像SR、去模糊和修复,使用扭曲和感知度量比较了开源的 SOTA 方法。为了克服 DMbased IR 中的潜在挑战,我们强调了未来有望探索的五个潜在方向。