Test-time scaling (TTS) aims to achieve better results by increasing random sampling and evaluating samples based on rules and metrics. However, in text-to-image(T2I) diffusion models, most related works focus on search strategies and reward models, yet the impact of the stochastic characteristic of noise in T2I diffusion models on the method's performance remains unexplored. In this work, we analyze the effects of randomness in T2I diffusion models and explore a new format of randomness for TTS: text embedding perturbation, which couples with existing randomness like SDE-injected noise to enhance generative diversity and quality. We start with a frequency-domain analysis of these formats of randomness and their impact on generation, and find that these two randomness exhibit complementary behavior in the frequency domain: spatial noise favors low-frequency components (early steps), while text embedding perturbation enhances high-frequency details (later steps), thereby compensating for the potential limitations of spatial noise randomness in high-frequency manipulation. Concurrently, text embedding demonstrates varying levels of tolerance to perturbation across different dimensions of the generation process. Specifically, our method consists of two key designs: (1) Introducing step-based text embedding perturbation, combining frequency-guided noise schedules with spatial noise perturbation. (2) Adapting the perturbation intensity selectively based on their frequency-specific contributions to generation and tolerance to perturbation. Our approach can be seamlessly integrated into existing TTS methods and demonstrates significant improvements on multiple benchmarks with almost no additional computation. Code is available at \href{https://github.com/xuhang07/TEP-Diffusion}{https://github.com/xuhang07/TEP-Diffusion}.


翻译:测试时缩放(TTS)旨在通过增加随机采样并依据规则和指标评估样本来获得更优结果。然而,在文本到图像(T2I)扩散模型中,现有研究多聚焦于搜索策略和奖励模型,而T2I扩散模型中噪声的随机特性对方法性能的影响尚未得到充分探索。本文分析了T2I扩散模型中的随机性效应,并提出一种适用于TTS的新型随机性形式:文本嵌入扰动,其与现有随机性(如SDE注入噪声)相结合,以增强生成多样性与质量。我们首先在频域分析这些随机性形式及其对生成过程的影响,发现二者在频域呈现互补特性:空间噪声倾向于低频分量(早期扩散步),而文本嵌入扰动能增强高频细节(后期扩散步),从而弥补空间噪声随机性在高频调控上的潜在局限。同时,文本嵌入在生成过程的不同维度上表现出对扰动的差异化容忍度。具体而言,本文方法包含两个关键设计:(1)引入基于扩散步的文本嵌入扰动,将频率引导的噪声调度与空间噪声扰动相结合;(2)根据随机性对生成的频率特异性贡献及其对扰动的容忍度,自适应选择扰动强度。该方法可无缝集成至现有TTS框架,在多个基准测试中展现出显著性能提升,且几乎不引入额外计算开销。代码发布于 \href{https://github.com/xuhang07/TEP-Diffusion}{https://github.com/xuhang07/TEP-Diffusion}。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
22+阅读 · 2023年5月10日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员