《扩散模型图像编辑》综述

去噪扩散模型已经成为各种图像生成和编辑任务的强大工具，促进了以无条件或输入条件方式合成视觉内容。它们背后的核心思想是学习逆转逐渐向图像添加噪声的过程，使它们能够从复杂分布中生成高质量样本。在这篇综述中，我们提供了一个关于使用扩散模型进行图像编辑的现有方法的详尽概述，涵盖了该领域的理论和实践方面。我们深入分析并从多个角度对这些工作进行了分类，包括学习策略、用户输入条件和可以完成的特定编辑任务的范围。此外，我们特别关注图像修复和扩展，并探索了早期的传统上下文驱动方法和当前的多模态条件方法，提供了它们方法论的全面分析。为了进一步评估文本引导的图像编辑算法的性能，我们提出了一个系统的基准，EditEval，特色是一个创新的指标，LMM分数。最后，我们讨论了当前的局限性，并设想了未来研究的一些潜在方向。伴随的仓库发布在 https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods。

在人工智能生成内容（AIGC）的领域中，利用人工智能来创建和修改数字内容，图像编辑被认为是创新和实际应用的重要领域。与从最小输入创建新图像的图像生成不同，图像编辑涉及更改图像的外观、结构或内容，包括从微妙的调整到重大变革的一系列更改。这项研究在数字媒体、广告和科学研究等各个领域都至关重要，其中改变视觉内容是必需的。图像编辑的演变反映了数字技术的进步，从手工、劳动密集型过程发展到由基于学习的算法驱动的高级数字技术。在这一演进中的一个关键进步是生成对抗网络（GANs）[1]-[6]的引入，显著增强了创造性图像操作的可能性。

最近，扩散模型在AIGC[1],[7]-[15]中崭露头角，带来了视觉生成任务的显著突破。扩散模型，受到非平衡热力学[15]原理的启发，通过逐渐向数据添加噪声，然后学习逆转这一过程，从随机噪声生成直到产生与源数据分布匹配的所需数据。它们大致可以分为去噪扩散基础[15]-[18]和分数匹配基础[19]-[23]。它们的适应性和有效性导致了在各种任务中的广泛应用，如图像生成[24]-[38]、视频生成[39]-[56]、图像恢复[57]-[71]和图像编辑。

在图像编辑中应用扩散模型的兴趣激增，近年来在这一领域的研究出版物数量显著增加为证。这种日益增长的关注突显了扩散模型在改善图像编辑性能方面相比于以往工作的潜力和多功能性。鉴于这一显著进步，系统地回顾和总结这些贡献是必要的。然而，现有关于扩散模型的综述文献集中在其他特定视觉任务上[72]-[75]，如视频应用[73]或图像恢复与增强[74],[75]。一些提到图像编辑的综述往往只提供了一个粗略的概述[76]-[83]，缺少对方法的详细和专注探索。

为了填补这一空缺，我们进行了一项综述，提供了一项专注于图像编辑的深入和全面分析。我们深入研究了这一领域扩散模型所实现的方法论、输入条件和广泛的编辑任务。该综述批判性地回顾了超过100篇研究论文，根据学习策略将它们组织成三个主要类别：基于训练的方法、测试时微调方法和无需训练和微调的方法。每个类别根据其核心技术进一步划分，分别在第4、5和6节中进行了详细讨论。我们还探索了这些方法中使用的10种不同类型的输入条件，包括文本、遮罩、参考（Ref.）图像、类别、布局、姿态、草图、分割（Seg.）图、音频和拖动点，以展示扩散模型在多样化图像编辑场景中的适应性。此外，我们的综述提出了一种新的图像编辑任务分类，将其划分为三大类：语义编辑、风格编辑和结构编辑，涵盖了12种特定类型。图1直观地表示了研究在学习策略、输入条件和编辑任务类别之间的统计分布。另外，我们特别关注了修复和外扩，这两者共同构成了一种独特的编辑类型。我们探索了早期的传统和当前的多模态条件方法，第7节提供了它们方法论的全面分析。我们还介绍了EditEval，这是一个旨在评估文本引导的图像编辑算法的基准，详细内容在第8节。特别地，我们通过利用大型多模态模型（LMMs）的先进视觉-语言理解能力，提出了一个有效的评估指标，LMM分数。最后，我们在第9节中展示了一些当前的挑战和潜在的未来趋势作为展望。 总之，这项综述旨在系统地分类和批判性地评估基于扩散模型的图像编辑研究的广泛文献。我们的目标是提供一个全面的资源，不仅综合了当前的发现，而且还指导了这一快速进步领域的未来研究方向。

除了扩散模型在图像生成、恢复和增强方面取得的重大进展之外，它们在图像编辑方面也取得了显著的突破，与之前占主导地位的GANs相比，提供了更强的可控性。与从零开始创建新图像的图像生成不同，以及旨在修复和提高降级图像质量的图像恢复和增强，图像编辑涉及修改现有图像的外观、结构或内容，包括添加对象、替换背景和改变纹理等任务。

在这项综述中，我们根据它们的学习策略将图像编辑论文组织成三个主要群体：基于训练的方法、测试时微调方法和无需训练和微调的方法，分别在第4、5和6节中详细阐述。此外，我们探索了这些方法用来控制编辑过程的10种类型的输入条件，包括文本、遮罩、参考（Ref.）图像、类别、布局、姿势、草图、分割（Seg.）图、音频和拖动点。此外，我们研究了这些方法可以完成的12种最常见的编辑类型，这些类型被组织成以下三大类。

语义编辑：这一类别包括对图像内容和叙述的修改，影响所描绘场景的故事、背景或主题元素。该类别内的任务包括对象添加（Obj. Add.）、对象移除（Obj. Remo.）、对象替换（Obj. Repl.）、背景更改（Bg. Chg.）和情感表达修改（Emo. Expr. Mod.）。
风格编辑：这一类别专注于增强或转换图像的视觉风格和美学元素，而不改变其叙述内容。该类别内的任务包括颜色更改（Color Chg.）、纹理更改（Text. Chg.）和整体风格更改（Style Chg.），涵盖艺术和现实风格。
结构编辑：这一类别涉及图像内元素的空间布局、位置、视点和特性的更改，强调场景内对象的组织和呈现。该类别内的任务包括对象移动（Obj. Move.）、对象大小和形状更改（Obj. Size. Chg.）、对象动作和姿势更改（Obj. Act. Chg.）和透视/视点更改（Persp./View. Chg.）。

表1全面总结了对调研论文的多角度分类，提供了快速搜索。

在基于扩散模型的图像编辑领域中，基于训练的方法已经获得了显著的突出地位。这些方法不仅因其稳定训练扩散模型和有效建模数据分布而著称，也因其在多种编辑任务中的可靠性能而备受关注。为了彻底检查这些方法，我们根据它们的应用范围、训练所需的条件以及监督类型，将它们分类为四个主要组，如图2所示。进一步地，在每个主要组内，我们根据它们的核心编辑方法将这些方法分类为不同的类型。这一分类展示了这些方法的范围，从针对特定领域的应用到更广泛的开放世界用途。

在图像生成和编辑中，测试时微调代表了向精确度和控制性迈进的重要一步。本节探讨了各种微调策略（见图5），这些策略增强了图像编辑的能力。如图6所示，这些方法范围从微调整个去噪模型到专注于特定层或嵌入。我们研究了微调整个模型、针对特定参数和优化基于文本的嵌入的方法。此外，我们讨论了超网络的集成和直接图像表示优化。这些方法共同展示了微调技术在图像编辑中的不断复杂化和有效性，满足了广泛的编辑需求和用户意图。

在图像编辑领域中，无需训练和微调的方法起始于它们快速且低成本的前提——因为在整个编辑过程中，它们不需要任何形式的训练（针对数据集）或微调（针对源图像）。本节根据它们所修改的内容，将这些方法分为五个类别，如图7和8所示。它们巧妙地利用扩散模型内在的原则来实现它们的编辑目标。

结论

我们已经全面概述了基于扩散模型的图像编辑方法，从多个角度检查了这一领域。我们的分析首先根据它们的学习策略，将超过100种方法分类为三个主要群体：基于训练的、测试时微调的，以及无需训练和微调的方法。然后，我们将图像编辑任务分类为三个不同的类别：语义编辑、风格编辑和结构编辑，总共包含12种特定类型。我们探索了这些方法及其对提高编辑性能的贡献。我们的图像编辑基准EditEval中对7个任务及最近的最先进方法进行了评估。此外，引入了一种新的度量LMM分数，用于这些方法的比较分析。总结我们的综述，我们强调了图像编辑领域内的广泛潜力，并建议了未来研究的方向。