Text-to-image diffusion inference typically follows synchronized schedules, where the numerical integrator advances the latent state to the same timestep at which the denoiser is conditioned. We propose an asynchronous inference mechanism that decouples these two, allowing the denoiser to be conditioned at a different, learned timestep while keeping image update schedule unchanged. A lightweight timestep prediction module (TPM), trained with Group Relative Policy Optimization (GRPO), selects a more feasible conditioning timestep based on the current state, effectively choosing a desired noise level to control image detail and textural richness. At deployment, a scaling hyper-parameter can be used to interpolate between the original and de-synchronized timesteps, enabling conservative or aggressive adjustments. To keep the study computationally affordable, we cap the inference at 15 steps for SD3.5 and 10 steps for Flux. Evaluated on Stable Diffusion 3.5 Medium and Flux.1-dev across MS-COCO 2014 and T2I-CompBench datasets, our method optimizes a composite reward that averages Image Reward, HPSv2, CLIP Score and Pick Score, and shows consistent improvement.


翻译:文本到图像扩散推理通常遵循同步调度,即数值积分器将潜在状态推进到与去噪器条件化时间步相同的时刻。我们提出了一种异步推理机制,将两者解耦,允许去噪器在不同且习得的时间步上进行条件化,同时保持图像更新调度不变。一个轻量级的时间步预测模块(TPM)通过组相对策略优化(GRPO)进行训练,根据当前状态选择更可行的条件化时间步,从而有效选择期望的噪声水平以控制图像细节和纹理丰富度。在部署时,可通过一个缩放超参数在原始时间步与去同步时间步之间进行插值,从而实现保守或激进的调整。为使研究在计算上可负担,我们将SD3.5的推理步数限制为15步,Flux限制为10步。在Stable Diffusion 3.5 Medium和Flux.1-dev模型上,基于MS-COCO 2014和T2I-CompBench数据集进行评估,我们的方法优化了一个综合奖励函数(平均图像奖励、HPSv2、CLIP分数和Pick分数),并显示出持续的改进。

0
下载
关闭预览

相关内容

【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员