Latent Diffusion Models (LDMs) inherently follow a coarse-to-fine generation process, where high-level semantic structure is generated slightly earlier than fine-grained texture. This indicates the preceding semantics potentially benefit texture generation by providing a semantic anchor. Recent advances have integrated semantic priors from pretrained visual encoders to further enhance LDMs, yet they still denoise semantic and VAE-encoded texture synchronously, neglecting such ordering. Observing these, we propose Semantic-First Diffusion (SFD), a latent diffusion paradigm that explicitly prioritizes semantic formation. SFD first constructs composite latents by combining a compact semantic latent, which is extracted from a pretrained visual encoder via a dedicated Semantic VAE, with the texture latent. The core of SFD is to denoise the semantic and texture latents asynchronously using separate noise schedules: semantics precede textures by a temporal offset, providing clearer high-level guidance for texture refinement and enabling natural coarse-to-fine generation. On ImageNet 256x256 with guidance, SFD achieves FID 1.06 (LightningDiT-XL) and FID 1.04 (1.0B LightningDiT-XXL), while achieving up to 100x faster convergence than the original DiT. SFD also improves existing methods like ReDi and VA-VAE, demonstrating the effectiveness of asynchronous, semantics-led modeling. Project page and code: https://yuemingpan.github.io/SFD.github.io/.


翻译:潜在扩散模型(LDMs)本质上遵循从粗到细的生成过程,其中高层语义结构的生成略早于细粒度纹理。这表明先前的语义可能通过提供语义锚点来有益于纹理生成。最近的进展已整合来自预训练视觉编码器的语义先验以进一步增强LDMs,但它们仍同步去噪语义和VAE编码的纹理,忽视了这种顺序性。基于这些观察,我们提出语义优先扩散(SFD),一种明确优先考虑语义形成的潜在扩散范式。SFD首先通过专用语义VAE从预训练视觉编码器中提取紧凑语义潜在表示,并将其与纹理潜在表示结合以构建复合潜在表示。SFD的核心是使用独立的噪声调度异步去噪语义和纹理潜在表示:语义在时间上先于纹理一个偏移量,为纹理细化提供更清晰的高层指导,并实现自然的从粗到细生成。在ImageNet 256x256数据集上使用指导时,SFD实现了FID 1.06(LightningDiT-XL)和FID 1.04(1.0B LightningDiT-XXL),同时收敛速度比原始DiT快达100倍。SFD还改进了现有方法如ReDi和VA-VAE,证明了异步、语义主导建模的有效性。项目页面和代码:https://yuemingpan.github.io/SFD.github.io/。

0
下载
关闭预览

相关内容

VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员