We introduce a new method to efficiently create text-to-image models from a pre-trained CLIP and StyleGAN. It enables text driven sampling with an existing generative model without any external data or fine-tuning. This is achieved by training a diffusion model conditioned on CLIP embeddings to sample latent vectors of a pre-trained StyleGAN, which we call clip2latent. We leverage the alignment between CLIP's image and text embeddings to avoid the need for any text labelled data for training the conditional diffusion model. We demonstrate that clip2latent allows us to generate high-resolution (1024x1024 pixels) images based on text prompts with fast sampling, high image quality, and low training compute and data requirements. We also show that the use of the well studied StyleGAN architecture, without further fine-tuning, allows us to directly apply existing methods to control and modify the generated images adding a further layer of control to our text-to-image pipeline.
翻译:我们引入了一种新方法, 高效地从训练有素的 CLIP 和 StyleGAN 中创建文本到图像模型。 它使得以文本驱动的取样能够以现有的基因模型进行,而无需任何外部数据或微调。 这是通过培训一个以CLIP嵌入预先培训的StyleGAN 的潜在矢量为条件的传播模型为条件的传播模型为条件的传播模型的传播模型, 我们称之为剪动。 我们利用CLIP 图像和文本嵌入之间的匹配, 以避免需要任何标记的文本数据来培训有条件的传播模型。 我们证明 剪动能让我们生成基于文本提示的高分辨率( 1024x1024 像素) 图像, 以快速取样、 高图像质量、 低培训计算和数据要求的文本提示为基础。 我们还表明, 使用经过良好研究的StyGAN 结构, 无需进一步微调, 就能直接应用现有方法来控制和修改生成的图像, 给我们的文本到图像管道增加一层控制。