NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

转载机器之心**

本篇论文已经被NeurIPS 2024接收。第一作者王方懿康是微信视觉团队实习生，同时也是浙江大学一年级硕士研究生。共同一作是微信高级研究员Hubery。通讯作者是浙江大学助理教授张超。其他作者包括来自清华大学的董玥江，来自浙江大学的朱胡旻昊，赵涵斌助理教授和钱徽教授，以及微信基础视觉和视觉生成技术负责人李琛。**随着扩散生成模型的发展，人工智能步入了属于 AIGC 的新纪元。扩散生成模型可以对初始高斯噪声进行逐步去噪而得到高质量的采样。当前，许多应用都涉及扩散模型的反演，即找到一个生成样本对应的初始噪声。当前的采样器不能兼顾反演的准确性和采样的质量。为彻底解决这一问题，微信视觉团队与浙江大学和清华大学联手提出了基于双向显式线性多步法的扩散模型精确反演采样器（BELM）这一通用算法，并通过截断误差分析确定了最优的 BELM 采样器系数。此方法在确保精确反演的同时还提升了生成样本的质量，在图像与视频的编辑、插值等下游任务中有广泛的应用前景。这一研究成果已被 NeurIPS 2024 会议接收。当前，扩散模型在图像生成、文字生成、音频生成等多个领域得到了广泛应用，表现出了卓越的性能。扩散模型的反演操作，即找到一个生成样本对应的初始噪声，对若干下游任务起到关键的作用。传统的 DDIM 反演会造成严重的不一致问题，即原始图片加噪再去噪的结果与原图相差甚远。近期，研究者们提出了多种启发式的精确反演采样器来解决 DDIM 反演的不一致问题。然而，这些启发式的精确反演采样器的理论特性尚不明确，且采样质量常常不尽如人意，这在一定程度上限制了它们的应用。为此，本研究引入了一种通用的精确反演采样器范式 —— 双向显式线性多步（BELM）采样器，该范式包含了上文提到的启发式精确反演采样器。该团队在 BELM 范式内系统地研究了局部截断误差（LTE），发现现有的精确反演采样器的 LTE 并非最优。因此，研究团队通过 LTE 最小化方法提出了最优的 BELM（Optimal-BELM，O-BELM）采样器。实验表明，O-BELM 采样器在实现精确反演的同时，也提升了采样的质量。

论文题目：BELM: Bidirectional Explicit Linear Multi-step Sampler for Exact Inversion in Diffusion Models * 论文链接：https://arxiv.org/abs/2410.07273 * 项目地址：https://github.com/zituitui/BELM

背景：DDIM 反演造成的不一致问题

由于 DDIM 的正向过程和反演过程使用的迭代式并不相同，所以 DDIM 的反演重构样本与初始的样本存在较大差别。实际使用中，DDIM 的反演有显著的不一致问题：

现有精确反演方法****Null-text-inversion以 Null-tex-inversion 为代表的方法对 unconditional 占位符进行 fine-tune，以达到精确反演。问题：这类方法局限于 text-classifier-free-guidance 场景下的扩散模型；需要额外训练，低效。 **

****EDICT**EDICT 是基于 DDIM 的启发式算法，借鉴了可逆网络的做法，有两个相互糅合的采样链。其逆过程如下，精确可逆：问题：需要两倍计算量；超参数 p 不鲁棒，导致采样质量不可控。BDIABDIA 改进了 EDICT，使用 x_i 的速度，x_i 和 x_{i+1} 的位置，通过下述公式实现精确可逆：