Modern Latent Diffusion Models (LDMs) typically operate in low-level Variational Autoencoder (VAE) latent spaces that are primarily optimized for pixel-level reconstruction. To unify vision generation and understanding, a burgeoning trend is to adopt high-dimensional features from representation encoders as generative latents. However, we empirically identify two fundamental obstacles in this paradigm: (1) the discriminative feature space lacks compact regularization, making diffusion models prone to off-manifold latents that lead to inaccurate object structures; and (2) the encoder's inherently weak pixel-level reconstruction hinders the generator from learning accurate fine-grained geometry and texture. In this paper, we propose a systematic framework to adapt understanding-oriented encoder features for generative tasks. We introduce a semantic-pixel reconstruction objective to regularize the latent space, enabling the compression of both semantic information and fine-grained details into a highly compact representation (96 channels with 16x16 spatial downsampling). This design ensures that the latent space remains semantically rich and achieves state-of-the-art image reconstruction, while remaining compact enough for accurate generation. Leveraging this representation, we design a unified Text-to-Image (T2I) and image editing model. Benchmarking against various feature spaces, we demonstrate that our approach achieves state-of-the-art reconstruction, faster convergence, and substantial performance gains in both T2I and editing tasks, validating that representation encoders can be effectively adapted into robust generative components.


翻译:现代潜在扩散模型(LDMs)通常在低层变分自编码器(VAE)潜在空间中运行,该空间主要针对像素级重建进行优化。为了统一视觉生成与理解,一个新兴趋势是采用表征编码器的高维特征作为生成性潜在表示。然而,我们通过实证研究发现该范式存在两个根本性障碍:(1)判别性特征空间缺乏紧凑的正则化,导致扩散模型容易产生偏离流形的潜在表示,从而生成不准确的物体结构;(2)编码器固有的弱像素级重建能力阻碍了生成器学习精确的细粒度几何与纹理特征。本文提出一个系统性框架,将面向理解任务的编码器特征适配于生成任务。我们引入语义-像素联合重建目标来正则化潜在空间,使得语义信息与细粒度细节都能压缩到高度紧凑的表示中(96通道且具有16×16空间下采样)。该设计确保潜在空间既保持语义丰富性,又能实现最先进的图像重建效果,同时保持足够紧凑以实现精确生成。基于此表示,我们设计了一个统一的文本到图像(T2I)与图像编辑模型。通过对多种特征空间的基准测试,我们证明该方法在重建质量上达到最优,具有更快的收敛速度,并在T2I与编辑任务中取得显著性能提升,验证了表征编码器能够有效适配为鲁棒的生成组件。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员