基于无条件扩散模型的实时文本驱动图像操纵 (Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models) - 专知论文

会员服务 ·

0

条件扩散模型 · 文本驱动 · 扩散模型 · 操作 · 语义属性 ·

2023 年 4 月 10 日

Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models

翻译：基于无条件扩散模型的实时文本驱动图像操纵

Nikita Starodubcev,Dmitry Baranchuk,Valentin Khrulkov,Artem Babenko

Recent advances in diffusion models enable many powerful instruments for image editing. One of these instruments is text-driven image manipulations: editing semantic attributes of an image according to the provided text description. % Popular text-conditional diffusion models offer various high-quality image manipulation methods for a broad range of text prompts. Existing diffusion-based methods already achieve high-quality image manipulations for a broad range of text prompts. However, in practice, these methods require high computation costs even with a high-end GPU. This greatly limits potential real-world applications of diffusion-based image editing, especially when running on user devices. In this paper, we address efficiency of the recent text-driven editing methods based on unconditional diffusion models and develop a novel algorithm that learns image manipulations 4.5-10 times faster and applies them 8 times faster. We carefully evaluate the visual quality and expressiveness of our approach on multiple datasets using human annotators. Our experiments demonstrate that our algorithm achieves the quality of much more expensive methods. Finally, we show that our approach can adapt the pretrained model to the user-specified image and text description on the fly just for 4 seconds. In this setting, we notice that more compact unconditional diffusion models can be considered as a rational alternative to the popular text-conditional counterparts.

翻译：最近，扩散模型的进展为图像编辑提供了许多强大的工具。其中一种工具是文本驱动的图像操作，即根据提供的文本描述编辑图像的语义属性。流行的基于文本条件的扩散模型为各种文本提示提供了不同种类的高质量图像操作方法。但是，实际使用中，即使在高端 GPU 上，这些方法也需要高计算成本。这极大地限制了扩散模型图像编辑的潜在实际应用，特别是在用户设备上的运行。在本文中，我们解决了基于无条件扩散模型的最近的文本驱动编辑方法的效率问题，并开发了一种新算法，它学习图像操作的速度比以前快 4.5-10 倍，并将其应用的速度提高了 8 倍。我们在多个数据集上仔细评估了我们的方法的视觉质量和表达能力，使用人工注释器进行评估。我们的实验证明，我们的算法实现了更昂贵方法的质量。最后，我们展示了我们的方法可以适应预训练的模型，从而实现用户指定的图像和文本描述，仅需 4 秒钟。在这种情况下，我们注意到更紧凑的无条件扩散模型可以被认为是流行的基于文本条件的替代选择。

0

相关内容

条件扩散模型

条件扩散模型

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

专知会员服务

54+阅读 · 2023年4月1日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

42+阅读 · 2023年3月16日

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

专知会员服务

17+阅读 · 2022年3月28日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【ICML2021】学习分子构象生成的梯度场

【ICML2021】学习分子构象生成的梯度场

专知会员服务

15+阅读 · 2021年5月30日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

专知会员服务

16+阅读 · 2020年4月8日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

文本生成图像？Google 推出 Imagen 新系统

文本生成图像？Google 推出 Imagen 新系统

CSDN

0+阅读 · 2022年9月2日

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

大数据文摘

1+阅读 · 2022年5月24日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

自发参量下转换产生的偏振纠缠光子对长寿命量子存储

国家自然科学基金

0+阅读 · 2014年12月31日

miR-124通过EGR1调控糖尿病肾病进展及肾脏纤维化的分子机制

国家自然科学基金

0+阅读 · 2013年12月31日

多时域材料分割算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于广义建模理论的多原子库图像编码方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

II-VI族半导体量子点电子自旋、原子核自旋的光学调控

国家自然科学基金

0+阅读 · 2012年12月31日

Witten Laplacian的特征值及与其相关的Ricci Soliton研究

国家自然科学基金

0+阅读 · 2012年12月31日

改进Max-SAT算法的关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

外场周期驱动的玻色爱因斯坦凝聚体的相干控制

国家自然科学基金

0+阅读 · 2009年12月31日

基于Sparse-Land模型的SAR图像噪声抑制与分割

国家自然科学基金

0+阅读 · 2009年12月31日

基于超分辨率技术的视频重构与编码研究

国家自然科学基金

1+阅读 · 2008年12月31日

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

Arxiv

0+阅读 · 2023年5月29日

Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors

Arxiv

0+阅读 · 2023年5月29日

Conditional Score Guidance for Text-Driven Image-to-Image Translation

Arxiv

0+阅读 · 2023年5月29日

Negative-prompt Inversion: Fast Image Inversion for Editing with Text-guided Diffusion Models

Arxiv

0+阅读 · 2023年5月26日

X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models

Arxiv

0+阅读 · 2023年5月26日

Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability

Arxiv

0+阅读 · 2023年5月25日

ProSpect: Expanded Conditioning for the Personalization of Attribute-aware Image Generation

Arxiv

0+阅读 · 2023年5月25日

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

Arxiv

0+阅读 · 2023年5月25日

Minimizing Trajectory Curvature of ODE-based Generative Models

Arxiv

0+阅读 · 2023年5月25日

Conditional Prompt Learning for Vision-Language Models

Conditional Prompt Learning for Vision-Language Models

Arxiv

13+阅读 · 2022年3月10日

VIP会员

文章信息

相关主题

条件扩散模型

相关VIP内容

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

CVPR 2023 | Prophet: 用小模型启发大语言模型解决外部知识图像问答

专知会员服务

54+阅读 · 2023年4月1日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

42+阅读 · 2023年3月16日

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

【CVPR 2022】未知损坏的一体化图像恢复,All-In-One Image Restoration for Unknown Corruption

专知会员服务

17+阅读 · 2022年3月28日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【ICML2021】学习分子构象生成的梯度场

【ICML2021】学习分子构象生成的梯度场

专知会员服务

15+阅读 · 2021年5月30日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

【MIT】条件说唱歌词生成与去噪自动编码器，Conditional Rap Lyrics Generation with Denoising Autoencoders

专知会员服务

16+阅读 · 2020年4月8日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

【ICIP 2019 Tutorials】图像到图像的转换（Image-to-Image Translation）,英伟达研究员Ming-Yu Liu

专知会员服务

27+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《战区安全决策课程体系》最新244页

《"无人机航母"原型平台》

任务规划与地形分析：现代复杂环境作战导航体系

《攻击场景描述形式化模型研究》

相关资讯

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

只需3个样本一句话，AI就能定制照片级图像，谷歌在玩一种很新的扩散模型

机器之心

0+阅读 · 2022年11月11日

文本生成图像？Google 推出 Imagen 新系统

文本生成图像？Google 推出 Imagen 新系统

CSDN

0+阅读 · 2022年9月2日

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

逼真度超越「AI设计师」DALL·E 2！谷歌大脑推出新的文本生成图像模型Imagen

大数据文摘

1+阅读 · 2022年5月24日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

相关论文

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

Arxiv

0+阅读 · 2023年5月29日

Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors

Arxiv

0+阅读 · 2023年5月29日

Conditional Score Guidance for Text-Driven Image-to-Image Translation

Arxiv

0+阅读 · 2023年5月29日

Negative-prompt Inversion: Fast Image Inversion for Editing with Text-guided Diffusion Models

Arxiv

0+阅读 · 2023年5月26日

X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models

Arxiv

0+阅读 · 2023年5月26日

Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability

Arxiv

0+阅读 · 2023年5月25日

ProSpect: Expanded Conditioning for the Personalization of Attribute-aware Image Generation

Arxiv

0+阅读 · 2023年5月25日

Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models

Arxiv

0+阅读 · 2023年5月25日

Minimizing Trajectory Curvature of ODE-based Generative Models

Arxiv

0+阅读 · 2023年5月25日

Conditional Prompt Learning for Vision-Language Models

Conditional Prompt Learning for Vision-Language Models

Arxiv

13+阅读 · 2022年3月10日

相关基金

自发参量下转换产生的偏振纠缠光子对长寿命量子存储

国家自然科学基金

0+阅读 · 2014年12月31日

miR-124通过EGR1调控糖尿病肾病进展及肾脏纤维化的分子机制

国家自然科学基金

0+阅读 · 2013年12月31日

多时域材料分割算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于广义建模理论的多原子库图像编码方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

II-VI族半导体量子点电子自旋、原子核自旋的光学调控

国家自然科学基金

0+阅读 · 2012年12月31日

Witten Laplacian的特征值及与其相关的Ricci Soliton研究

国家自然科学基金

0+阅读 · 2012年12月31日

改进Max-SAT算法的关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

外场周期驱动的玻色爱因斯坦凝聚体的相干控制

国家自然科学基金

0+阅读 · 2009年12月31日

基于Sparse-Land模型的SAR图像噪声抑制与分割

国家自然科学基金

0+阅读 · 2009年12月31日

基于超分辨率技术的视频重构与编码研究

国家自然科学基金

1+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员