Iterative refinement methods based on a denoising-inversion cycle are powerful tools for enhancing the quality and control of diffusion models. However, their effectiveness is critically limited when combined with standard Classifier-Free Guidance (CFG). We identify a fundamental limitation: CFG's extrapolative nature systematically pushes the sampling path off the data manifold, causing the approximation error to diverge and undermining the refinement process. To address this, we propose Guided Path Sampling (GPS), a new paradigm for iterative refinement. GPS replaces unstable extrapolation with a principled, manifold-constrained interpolation, ensuring the sampling path remains on the data manifold. We theoretically prove that this correction transforms the error series from unbounded amplification to strictly bounded, guaranteeing stability. Furthermore, we devise an optimal scheduling strategy that dynamically adjusts guidance strength, aligning semantic injection with the model's natural coarse-to-fine generation process. Extensive experiments on modern backbones like SDXL and Hunyuan-DiT show that GPS outperforms existing methods in both perceptual quality and complex prompt adherence. For instance, GPS achieves a superior ImageReward of 0.79 and HPS v2 of 0.2995 on SDXL, while improving overall semantic alignment accuracy on GenEval to 57.45%. Our work establishes that path stability is a prerequisite for effective iterative refinement, and GPS provides a robust framework to achieve it.


翻译:基于去噪-反转循环的迭代优化方法是提升扩散模型质量与控制力的强大工具。然而,当与标准的无分类器引导结合时,其有效性受到严重制约。我们发现一个根本性局限:CFG的外推特性会系统性地将采样路径推离数据流形,导致近似误差发散并破坏优化过程。为解决此问题,我们提出引导路径采样,这是一种全新的迭代优化范式。GPS用原则性的流形约束插值替代不稳定的外推操作,确保采样路径始终保持在数据流形上。我们从理论上证明,这种修正能将误差序列从无界放大转变为严格有界,从而保证稳定性。此外,我们设计了动态调整引导强度的最优调度策略,使语义注入与模型固有的从粗到细生成过程相协调。在SDXL、Hunyuan-DiT等现代骨干模型上的大量实验表明,GPS在感知质量与复杂提示遵循度方面均优于现有方法。例如,GPS在SDXL上实现了0.79的优异ImageReward分数和0.2995的HPS v2分数,同时将GenEval的整体语义对齐准确率提升至57.45%。我们的研究证实路径稳定性是实现有效迭代优化的先决条件,而GPS为此提供了稳健的实现框架。

0
下载
关闭预览

相关内容

[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
17+阅读 · 2024年5月23日
专知会员服务
38+阅读 · 2021年3月29日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员