标题：基于扩散路径操作的文本引导图像编辑的MDP通用框架摘要：利用扩散生成图像时，可以通过多种方式进行控制。在本文中，我们系统地分析了现代生成扩散网络的方程，提出了一个叫做MDP的框架，说明了适当操作的设计空间。我们确定了包括中间潜变量、条件嵌入、交叉注意力图、引导和预测噪声在内的5种不同操作。我们分析了这些操作的相应参数和操作时间表。我们展示了一些以前的编辑方法在我们的框架中很好地适合。特别地，我们确定了一种通过操纵预测噪声的新类型控制方式，它可以对各种局部和全局编辑执行比以前的工作更高质量的编辑。 (MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path) - 专知论文

会员服务 ·

0

操作 · 噪声 · 通用框架 · 分析 · 嵌入 ·

2023 年 3 月 30 日

MDP: A Generalized Framework for Text-Guided Image Editing by Manipulating the Diffusion Path

翻译：标题：基于扩散路径操作的文本引导图像编辑的MDP通用框架摘要：利用扩散生成图像时，可以通过多种方式进行控制。在本文中，我们系统地分析了现代生成扩散网络的方程，提出了一个叫做MDP的框架，说明了适当操作的设计空间。我们确定了包括中间潜变量、条件嵌入、交叉注意力图、引导和预测噪声在内的5种不同操作。我们分析了这些操作的相应参数和操作时间表。我们展示了一些以前的编辑方法在我们的框架中很好地适合。特别地，我们确定了一种通过操纵预测噪声的新类型控制方式，它可以对各种局部和全局编辑执行比以前的工作更高质量的编辑。

Qian Wang,Biao Zhang,Michael Birsak,Peter Wonka

from arxiv, Project page: https://github.com/QianWangX/MDP-Diffusion

Image generation using diffusion can be controlled in multiple ways. In this paper, we systematically analyze the equations of modern generative diffusion networks to propose a framework, called MDP, that explains the design space of suitable manipulations. We identify 5 different manipulations, including intermediate latent, conditional embedding, cross attention maps, guidance, and predicted noise. We analyze the corresponding parameters of these manipulations and the manipulation schedule. We show that some previous editing methods fit nicely into our framework. Particularly, we identified one specific configuration as a new type of control by manipulating the predicted noise, which can perform higher-quality edits than previous work for a variety of local and global edits.

翻译：注意：英文单词、专有名词、缩略词等请保留原文不翻译。

0

相关内容

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

基于等变扩散模型的三维分子生成

基于等变扩散模型的三维分子生成

专知会员服务

10+阅读 · 2022年11月28日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

专知会员服务

26+阅读 · 2020年5月5日

【ICML2020投稿论文】用于半监督图像分类的CowMask，Milking CowMask for Semi-Supervised Image Classification

【ICML2020投稿论文】用于半监督图像分类的CowMask，Milking CowMask for Semi-Supervised Image Classification

专知会员服务

29+阅读 · 2020年3月27日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

生成扩散模型漫谈：一般框架之SDE篇

生成扩散模型漫谈：一般框架之SDE篇

PaperWeekly

0+阅读 · 2022年8月14日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

已删除

黑白之道

19+阅读 · 2018年12月23日

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

泡泡机器人SLAM

33+阅读 · 2018年8月6日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

带有噪声扰动的动力系统分支问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

具非线性边界源或加权反应项的扩散模型解的性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

发展新的波包传播、坐标变换方法研究态态分子反应动力学

国家自然科学基金

0+阅读 · 2013年12月31日

基于群体一致性动力学的网络社团结构识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

改进S变换自适应算法与电能质量检测及扰动信号特征提取方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

纠缠破坏信道与量子测量的代数结构与几何特征

国家自然科学基金

0+阅读 · 2012年12月31日

全局轨迹解析的通用框架和推理方法，以及在智能视频监控中的应用

国家自然科学基金

1+阅读 · 2011年12月31日

瞬态操作条件下离心泵内部非定常流动机理研究与数值模拟

国家自然科学基金

0+阅读 · 2009年12月31日

脊髓损伤膀胱功能重建术后脑功能重塑研究

国家自然科学基金

0+阅读 · 2009年12月31日

Structural Pruning for Diffusion Models

Arxiv

0+阅读 · 2023年5月18日

DiffUTE: Universal Text Editing Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

CloudWalker: Random walks for 3D point cloud shape analysis

Arxiv

0+阅读 · 2023年5月17日

A Highly Scalable, Hybrid, Cross-Platform Timing Analysis Framework Providing Accurate Differential Throughput Estimation via Instruction-Level Tracing

Arxiv

0+阅读 · 2023年5月16日

The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions

Arxiv

14+阅读 · 2022年1月20日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

Deep Graph Structure Learning for Robust Representations: A Survey

Arxiv

21+阅读 · 2021年3月4日

Adversarial Mutual Information for Text Generation

Adversarial Mutual Information for Text Generation

Arxiv

13+阅读 · 2020年6月30日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

VIP会员

文章信息

相关主题

相关VIP内容

【ICML2023】基于自然语言指令的受控文本生成

【ICML2023】基于自然语言指令的受控文本生成

专知会员服务

29+阅读 · 2023年4月28日

基于等变扩散模型的三维分子生成

基于等变扩散模型的三维分子生成

专知会员服务

10+阅读 · 2022年11月28日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

【ACL2020】用于生成深度问题的语义图，Semantic Graphs for Generating Deep Questions

专知会员服务

26+阅读 · 2020年5月5日

【ICML2020投稿论文】用于半监督图像分类的CowMask，Milking CowMask for Semi-Supervised Image Classification

【ICML2020投稿论文】用于半监督图像分类的CowMask，Milking CowMask for Semi-Supervised Image Classification

专知会员服务

29+阅读 · 2020年3月27日

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

【推荐】用于解缠学习的半监督StyleGAN，Semi-Supervised StyleGAN for Disentanglement Learning

专知会员服务

36+阅读 · 2020年3月13日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

从社会学实验到行为仿真：理解基于Agent的观点动力学建模思维

中英文版《GPT-5 System Card速览》报告

ACL 2025 | 大模型结构化知识提示的泛化能力研究

【普林斯顿博士论文】大型模型的高效推理

相关资讯

生成扩散模型漫谈：一般框架之SDE篇

生成扩散模型漫谈：一般框架之SDE篇

PaperWeekly

0+阅读 · 2022年8月14日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

已删除

黑白之道

19+阅读 · 2018年12月23日

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

【泡泡点云时空】用于点云识别的注意力形状上下文网络（CVPR2018-1）

泡泡机器人SLAM

33+阅读 · 2018年8月6日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

【论文推荐】最新六篇对抗自编码器相关论文—多尺度网络节点表示、生成对抗自编码、逆映射、Wasserstein、条件对抗、去噪

专知

20+阅读 · 2018年4月7日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

相关论文

Structural Pruning for Diffusion Models

Arxiv

0+阅读 · 2023年5月18日

DiffUTE: Universal Text Editing Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

CloudWalker: Random walks for 3D point cloud shape analysis

Arxiv

0+阅读 · 2023年5月17日

A Highly Scalable, Hybrid, Cross-Platform Timing Analysis Framework Providing Accurate Differential Throughput Estimation via Instruction-Level Tracing

Arxiv

0+阅读 · 2023年5月16日

The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions

Arxiv

14+阅读 · 2022年1月20日

Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing

Arxiv

30+阅读 · 2021年7月28日

Deep Graph Structure Learning for Robust Representations: A Survey

Arxiv

21+阅读 · 2021年3月4日

Adversarial Mutual Information for Text Generation

Adversarial Mutual Information for Text Generation

Arxiv

13+阅读 · 2020年6月30日

Adversarial Multimodal Representation Learning for Click-Through Rate Prediction

Arxiv

23+阅读 · 2020年3月7日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

相关基金

带有噪声扰动的动力系统分支问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

具非线性边界源或加权反应项的扩散模型解的性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

多元线性整值时间序列的统计分析

国家自然科学基金

2+阅读 · 2013年12月31日

发展新的波包传播、坐标变换方法研究态态分子反应动力学

国家自然科学基金

0+阅读 · 2013年12月31日

基于群体一致性动力学的网络社团结构识别研究

国家自然科学基金

0+阅读 · 2012年12月31日

改进S变换自适应算法与电能质量检测及扰动信号特征提取方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

纠缠破坏信道与量子测量的代数结构与几何特征

国家自然科学基金

0+阅读 · 2012年12月31日

全局轨迹解析的通用框架和推理方法，以及在智能视频监控中的应用

国家自然科学基金

1+阅读 · 2011年12月31日

瞬态操作条件下离心泵内部非定常流动机理研究与数值模拟

国家自然科学基金

0+阅读 · 2009年12月31日

脊髓损伤膀胱功能重建术后脑功能重塑研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员