提高自注意引导扩散模型样本质量 (Improving Sample Quality of Diffusion Models Using Self-Attention Guidance) - 专知论文

会员服务 ·

0

扩散模型 · 样本 · 分类器 · 模糊处理 · 广义 ·

2023 年 3 月 31 日

Improving Sample Quality of Diffusion Models Using Self-Attention Guidance

翻译：提高自注意引导扩散模型样本质量

Susung Hong,Gyuseong Lee,Wooseok Jang,Seungryong Kim

from arxiv, Project page: https://ku-cvlab.github.io/Self-Attention-Guidance

Denoising diffusion models (DDMs) have attracted attention for their exceptional generation quality and diversity. This success is largely attributed to the use of class- or text-conditional diffusion guidance methods, such as classifier and classifier-free guidance. In this paper, we present a more comprehensive perspective that goes beyond the traditional guidance methods. From this generalized perspective, we introduce novel condition- and training-free strategies to enhance the quality of generated images. As a simple solution, blur guidance improves the suitability of intermediate samples for their fine-scale information and structures, enabling diffusion models to generate higher quality samples with a moderate guidance scale. Improving upon this, Self-Attention Guidance (SAG) uses the intermediate self-attention maps of diffusion models to enhance their stability and efficacy. Specifically, SAG adversarially blurs only the regions that diffusion models attend to at each iteration and guides them accordingly. Our experimental results show that our SAG improves the performance of various diffusion models, including ADM, IDDPM, Stable Diffusion, and DiT. Moreover, combining SAG with conventional guidance methods leads to further improvement.

翻译：扩散去噪模型（DDM）因其卓越的生成质量和多样性而受到关注。这一成功主要归功于使用基于类或基于文本的扩散指导方法，例如分类器和无分类器指导。在本文中，我们提出了一个更全面的观点，超越了传统的指导方法。从这个广义的角度，我们引入了新颖的无条件和无训练策略，以增强生成图像的质量。作为一个简单的解决方案，模糊引导提高了中间样本的适用性，使扩散模型能够以适当的指导尺度生成更高质量的样本。在此基础上，自注意引导（SAG）利用扩散模型的中间自注意力图来增强其稳定性和效力。具体来说，SAG仅对扩散模型在每次迭代中注意到的区域进行对抗性模糊处理，并相应地指导它们。我们的实验结果表明，我们的SAG提高了各种扩散模型的性能，包括ADM、IDDPM、Stable Diffusion和DiT等。此外，将SAG与传统的指导方法结合使用会进一步改进。

0

相关内容

扩散模型

扩散模型是近年来快速发展并得到广泛关注的生成模型。它通过一系列的加噪和去噪过程，在复杂的图像分布和高斯分布之间建立联系，使得模型最终能将随机采样的高斯噪声逐步去噪得到一张图像。

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

专知会员服务

88+阅读 · 2022年12月22日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知会员服务

40+阅读 · 2022年11月5日

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

专知会员服务

26+阅读 · 2022年11月5日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

36+阅读 · 2020年2月27日

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

专知会员服务

37+阅读 · 2020年2月27日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

机器之心

0+阅读 · 2022年11月14日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知

0+阅读 · 2022年11月6日

从大一统视角理解扩散模型（Diffusion Models）

从大一统视角理解扩散模型（Diffusion Models）

PaperWeekly

3+阅读 · 2022年9月27日

浅聊对比学习（Contrastive Learning）第一弹

浅聊对比学习（Contrastive Learning）第一弹

PaperWeekly

0+阅读 · 2022年6月10日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

3D多孔结构LiMnPO4•LiVPO4F@石墨烯气凝胶复合物材料的构筑及电化学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

以ED-A(+)Fn为靶点超声纳米分子成像及靶向治疗心脏移植慢性排斥反应

国家自然科学基金

0+阅读 · 2014年12月31日

锚定结直肠癌细胞膜EphA2受体蛋白的分子成像及靶向给药研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向不平衡样本的流形学习故障诊断方法

国家自然科学基金

0+阅读 · 2012年12月31日

多目标图像分割的稀疏表示方法

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

贵金属负载纳米催化材料的调控合成与性能研究

国家自然科学基金

0+阅读 · 2012年12月31日

激光冲击波诱发提高铜纳米薄膜电性能的工艺及机理

国家自然科学基金

0+阅读 · 2011年12月31日

结构不连续输流管道振动波传播机理与失效分析

国家自然科学基金

0+阅读 · 2009年12月31日

On the Importance of Noise Scheduling for Diffusion Models

Arxiv

0+阅读 · 2023年5月21日

Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization

Arxiv

0+阅读 · 2023年5月19日

A Preliminary Study on Augmenting Speech Emotion Recognition using a Diffusion Model

Arxiv

0+阅读 · 2023年5月19日

ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval

Arxiv

0+阅读 · 2023年5月18日

Controllable Mind Visual Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

Diffusion Models in Vision: A Survey

Arxiv

29+阅读 · 2022年9月10日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

An Attentive Survey of Attention Models

An Attentive Survey of Attention Models

Arxiv

44+阅读 · 2020年12月15日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Feature Denoising for Improving Adversarial Robustness

Feature Denoising for Improving Adversarial Robustness

Arxiv

15+阅读 · 2018年12月9日

VIP会员

文章信息

相关主题

相关VIP内容

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

Transformer如何做扩散模型？伯克利最新《transformer可扩展扩散模型》论文

专知会员服务

88+阅读 · 2022年12月22日

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知会员服务

40+阅读 · 2022年11月5日

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

斯坦福MIT-CMU【NeurIPS 2022】条件GANs和扩散模型的有效空间稀疏推断

专知会员服务

26+阅读 · 2022年11月5日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【Google】平滑对抗训练，Smooth Adversarial Training

【Google】平滑对抗训练，Smooth Adversarial Training

专知会员服务

49+阅读 · 2020年7月4日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

36+阅读 · 2020年2月27日

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

【清华大学】诊断和增强VAE模型，Diagnosing and Enhancing VAE Models

专知会员服务

37+阅读 · 2020年2月27日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

机器之心

0+阅读 · 2022年11月14日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知

0+阅读 · 2022年11月6日

从大一统视角理解扩散模型（Diffusion Models）

从大一统视角理解扩散模型（Diffusion Models）

PaperWeekly

3+阅读 · 2022年9月27日

浅聊对比学习（Contrastive Learning）第一弹

浅聊对比学习（Contrastive Learning）第一弹

PaperWeekly

0+阅读 · 2022年6月10日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

【论文推荐】最新七篇图像分割相关论文—域适应深度表示学习、循环残差卷积、二值分割、图像合成、无监督跨模态

专知

19+阅读 · 2018年6月1日

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

【论文推荐】最新八篇生成对抗网络相关论文—条件翻译、RGB-D动作识别、量子生成对抗网络、语义对齐、视频摘要、视觉-文本注意力

专知

15+阅读 · 2018年5月15日

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

【论文推荐】最新八篇生成对抗网络相关论文—BRE、图像合成、多模态图像生成、非配对多域图、注意力、对抗特征增强、深度对抗性训练

专知

16+阅读 · 2018年5月14日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

相关论文

On the Importance of Noise Scheduling for Diffusion Models

Arxiv

0+阅读 · 2023年5月21日

Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization

Arxiv

0+阅读 · 2023年5月19日

A Preliminary Study on Augmenting Speech Emotion Recognition using a Diffusion Model

Arxiv

0+阅读 · 2023年5月19日

ReGen: Zero-Shot Text Classification via Training Data Generation with Progressive Dense Retrieval

Arxiv

0+阅读 · 2023年5月18日

Controllable Mind Visual Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

Diffusion Models in Vision: A Survey

Arxiv

29+阅读 · 2022年9月10日

Attention Bottlenecks for Multimodal Fusion

Arxiv

31+阅读 · 2021年6月30日

An Attentive Survey of Attention Models

An Attentive Survey of Attention Models

Arxiv

44+阅读 · 2020年12月15日

Reasoning in Dialog: Improving Response Generation by Context Reading Comprehension

Arxiv

12+阅读 · 2020年12月14日

Feature Denoising for Improving Adversarial Robustness

Feature Denoising for Improving Adversarial Robustness

Arxiv

15+阅读 · 2018年12月9日

相关基金

3D平移不变剪切波域统计相关性驱动的多模态医学图像融合方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

3D多孔结构LiMnPO4•LiVPO4F@石墨烯气凝胶复合物材料的构筑及电化学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

以ED-A(+)Fn为靶点超声纳米分子成像及靶向治疗心脏移植慢性排斥反应

国家自然科学基金

0+阅读 · 2014年12月31日

锚定结直肠癌细胞膜EphA2受体蛋白的分子成像及靶向给药研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向不平衡样本的流形学习故障诊断方法

国家自然科学基金

0+阅读 · 2012年12月31日

多目标图像分割的稀疏表示方法

国家自然科学基金

0+阅读 · 2012年12月31日

光学图像的自相似分块增强研究

国家自然科学基金

1+阅读 · 2012年12月31日

贵金属负载纳米催化材料的调控合成与性能研究

国家自然科学基金

0+阅读 · 2012年12月31日

激光冲击波诱发提高铜纳米薄膜电性能的工艺及机理

国家自然科学基金

0+阅读 · 2011年12月31日

结构不连续输流管道振动波传播机理与失效分析

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员