任意分辨率的图像生成能够在不同设备上提供一致的视觉体验,在生产者和消费者应用中具有广泛价值。然而,现有的扩散模型在分辨率提升时,其计算需求会 随分辨率呈二次方增长,导致 4K 图像生成的延迟超过 100 秒。为了解决这一问题,我们探索了 潜在扩散模型(latent diffusion models)的第二代改进。在该框架中,扩散模型生成的固定潜在表示被视为内容表征,我们进一步提出利用一个 单步生成器,将这一紧凑的潜在表示解码为任意分辨率的图像。因此,我们提出了 InfGen,用其替代传统的 VAE。