Recent advances in diffusion models enable many powerful instruments for image editing. One of these instruments is text-driven image manipulations: editing semantic attributes of an image according to the provided text description. % Popular text-conditional diffusion models offer various high-quality image manipulation methods for a broad range of text prompts. Existing diffusion-based methods already achieve high-quality image manipulations for a broad range of text prompts. However, in practice, these methods require high computation costs even with a high-end GPU. This greatly limits potential real-world applications of diffusion-based image editing, especially when running on user devices. In this paper, we address efficiency of the recent text-driven editing methods based on unconditional diffusion models and develop a novel algorithm that learns image manipulations 4.5-10 times faster and applies them 8 times faster. We carefully evaluate the visual quality and expressiveness of our approach on multiple datasets using human annotators. Our experiments demonstrate that our algorithm achieves the quality of much more expensive methods. Finally, we show that our approach can adapt the pretrained model to the user-specified image and text description on the fly just for 4 seconds. In this setting, we notice that more compact unconditional diffusion models can be considered as a rational alternative to the popular text-conditional counterparts.


翻译:最近,扩散模型的进展为图像编辑提供了许多强大的工具。其中一种工具是文本驱动的图像操作,即根据提供的文本描述编辑图像的语义属性。流行的基于文本条件的扩散模型为各种文本提示提供了不同种类的高质量图像操作方法。但是,实际使用中,即使在高端 GPU 上,这些方法也需要高计算成本。这极大地限制了扩散模型图像编辑的潜在实际应用,特别是在用户设备上的运行。在本文中,我们解决了基于无条件扩散模型的最近的文本驱动编辑方法的效率问题,并开发了一种新算法,它学习图像操作的速度比以前快 4.5-10 倍,并将其应用的速度提高了 8 倍。我们在多个数据集上仔细评估了我们的方法的视觉质量和表达能力,使用人工注释器进行评估。我们的实验证明,我们的算法实现了更昂贵方法的质量。最后,我们展示了我们的方法可以适应预训练的模型,从而实现用户指定的图像和文本描述,仅需 4 秒钟。在这种情况下,我们注意到更紧凑的无条件扩散模型可以被认为是流行的基于文本条件的替代选择。

0
下载
关闭预览

相关内容

【ICML2021】学习分子构象生成的梯度场
专知会员服务
15+阅读 · 2021年5月30日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
文本生成图像?Google 推出 Imagen 新系统
DeepMind开源最牛无监督学习BigBiGAN预训练模型
新智元
10+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Conditional Prompt Learning for Vision-Language Models
Arxiv
13+阅读 · 2022年3月10日
VIP会员
相关VIP内容
【ICML2021】学习分子构象生成的梯度场
专知会员服务
15+阅读 · 2021年5月30日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员