大红大紫的Diffusion，真的比GAN强吗？ - 专知

会员服务 ·

0

大红大紫的Diffusion，真的比GAN强吗？

2023 年 4 月 4 日 PaperWeekly

AI绘画属于AIGC分支之一，在热潮与争议之中，2022年甚至被冠以“AIGC元年”。而随着AI 绘画的火爆，其背后用到的核心技术之一 Diffusion Model（扩散模型）也在图像生成领域大红大紫，甚至风头已经隐隐有开始超过 GAN的趋势了。

从原理图可以看出，输入的文本首先经过编码，再由一个文字转图像的扩散模型转化为64*64的小图，从而利用超分辨率扩散模型对小图进行处理，在进一步的迭代过程中提升图像的分辨率，得到最后的生成结果——一张1024*1024的最终图像。

扫码领diffusion必读论文

+扩散模型大咖公开课

Diffusion model 借助图像分割领域的UNet，训练loss稳定，数据足够，模型效果非常好。相比于GAN需要和判别器对抗训练或者VAE需要变分后验，diffusion model的loss真的是太简单了。diffusion model只需要“模仿”一个非常简单的前向过程对应的逆过程即可。这样简单高效的训练也使得diffusion model在许多任务中的表现都非常好，甚至超过了GAN。

整体上来看，diffusion model领域正处于一个百花齐放的状态，这个领域有一点像GAN刚提出来的时候，但目前的训练技术让diffusion model直接跨越了GAN领域调模型的阶段，而是直接可以用来做下游任务。这个领域有一些核心的理论问题还需要研究，这就给科研从业者提供个很有价值的研究内容，有很多idea都可以被激发出来，同时由于这个模型已经很work了，它和下游任务的结合也才刚刚起步，有很多地方都可以赶紧占坑。而未来随着diffusion model中存在的问题的解决，diffusion model将逐渐占据深度生成模型的主导。

最近在和一位毕业于清华大学的顶会论文大佬聊天的过程中，被他的背景惊到了，这位大神，目前已经发了二十多篇顶会论文！（绝对算是顶会论文收割机级别了）除了是CVPR、ECCV、ICCV、AAAI、ACM、MM、IJCV等顶级会议和期刊审稿人之外，他还是阿里资深研究科学家，这些描述每一个都不简单~

我们也邀请了这位顶会论文大佬，来和大家聊一聊扩散模型原理及其在跨模态合成应用，来看看大佬是怎么理解目前大火的扩散模型的～

扫码免费领取顶会大佬直播课

限前一百名粉丝

文末领福利

要高效做科研，掌握方法、合理利用自身可用资源很关键！结合身边学弟学妹以及自己的科研成长经历，发现大家普遍缺乏系统的科研知识体系，很难写出一篇合格的文章。更别提发现好的创新点和idea了！

做科研发论文从结果上，其实可以分为以下三类：

发现一个新方法，并将其运用在一个已知的问题之上（老问题新方法）
发现一个新问题，并将一个已知的研究拓展到这个问题之上（新问题老方法）
发现一个新问题，并且提出一个新方法用以对其进行分析研究（新问题新方法）

以难以程度来考量的话，新问题老方法＜老问题新方法＜新问题新方法。

所以，大家都头疼的创新点和idea，其实也有方法论，掌握了之后，就会比较容易找到一个idea～

想“idea”，有两宝——模型+算法

模型，可以理解成system model中的部分，可以是现有问题模型的拓展延伸，其实，这就叫创新，只要你做的是别人还没研究或者研究很少的，就已经可以算创新了。

当你提出了一个模型，就要选择一个合适的算法来解决模型中的问题。可以是寻找合适的算法根据自己的场景合理地进行改进，就已经是一个很棒的想法了。

对于科研新手来讲，如何踏出科研的第一步至关重要，确定一个研究方向，确定选题，然后找到创新点，获取idea，写出论文，这条打怪升级的道路，可以有简单模式，也可以有复杂模式，anyway，无论是哪种模式，有大神的指点都会轻松许多。

扫码免费预约顶会大佬直播课

限前一百名粉丝

文末领福利

文末福利

作为日常为了论文而忙碌的科研人，小编知道大家一定很需要一些资料。因此，小编精心整理了一份超过1T的AI顶会论文大礼包！包含最新顶会论文、书籍等资料，以及英文论文写作指导保姆级资料，从文献阅读到论文写作，全部帮你整理好~

扫码免费领课程资料↑

-END-

登录查看更多

0

相关内容

GaN

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

基于条件扩散模型的文本到图像合成, 32页ppt

基于条件扩散模型的文本到图像合成, 32页ppt

专知会员服务

26+阅读 · 2022年11月21日

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

专知会员服务

123+阅读 · 2022年9月8日

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

专知会员服务

74+阅读 · 2022年4月6日

无监督学习：深度生成模型，35页ppt

专知会员服务

42+阅读 · 2021年7月4日

计算机视觉中的自监督学习与注意力建模

专知会员服务

60+阅读 · 2021年4月11日

【CVPR2021】GAN人脸预训练模型

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

GANs最新综述论文: 生成式对抗网络及其变种如何有用

GANs最新综述论文: 生成式对抗网络及其变种如何有用

专知会员服务

72+阅读 · 2019年10月19日

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

机器之心

0+阅读 · 2022年11月14日

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

新智元

2+阅读 · 2022年9月30日

Diffusion Model一发力，GAN就过时了？？？

Diffusion Model一发力，GAN就过时了？？？

量子位

3+阅读 · 2022年8月20日

千万别让富坚义博看到这个

千万别让富坚义博看到这个

量子位

0+阅读 · 2022年7月22日

扩散模型在图像生成领域大火，风头超过GAN？

扩散模型在图像生成领域大火，风头超过GAN？

夕小瑶的卖萌屋

0+阅读 · 2022年6月7日

【GAN】生成对抗网络(GAN)的发展史

【GAN】生成对抗网络(GAN)的发展史

产业智能官

16+阅读 · 2020年3月20日

多图对比看懂GAN与VAE的各种变体

多图对比看懂GAN与VAE的各种变体

炼数成金订阅号

47+阅读 · 2017年9月6日

手把手 | 生成式对抗网络（GAN）之MNIST数据生成

手把手 | 生成式对抗网络（GAN）之MNIST数据生成

数说工作室

10+阅读 · 2017年7月31日

深度神经网络生成模型：从 GAN VAE 到 CVAE-GAN

深度神经网络生成模型：从 GAN VAE 到 CVAE-GAN

AI100

11+阅读 · 2017年7月20日

GAN猫的脸

机械鸡

11+阅读 · 2017年7月8日

多回热循环耦合型大功率高效行波热声转换机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

硅基同质异质结太阳电池物理与器件研究

国家自然科学基金

0+阅读 · 2014年12月31日

多铁性分子器件中的隧穿磁致电阻和遂穿电致电阻的机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

Lai-Massey分组密码模型的安全性研究

国家自然科学基金

1+阅读 · 2012年12月31日

PbS量子点薄膜作缓冲层的ZnO纳米杆与Cu2O薄膜异质结太阳电池

国家自然科学基金

0+阅读 · 2012年12月31日

MOCVD异质外延GaN过程中横向生长效应的研究

国家自然科学基金

0+阅读 · 2012年12月31日

量子信息中的量子游走

国家自然科学基金

0+阅读 · 2012年12月31日

表面等离子体增强TiO2纳米管阵列薄膜光催化水解制氢机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

GSMBE 1.55微米 InAs/InGaAsP 量子点激光器材料与器件

国家自然科学基金

0+阅读 · 2009年12月31日

异步低功耗LDPC解码器设计

国家自然科学基金

0+阅读 · 2009年12月31日

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

Arxiv

0+阅读 · 2023年5月30日

Nested Diffusion Processes for Anytime Image Generation

Arxiv

0+阅读 · 2023年5月30日

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance

Arxiv

0+阅读 · 2023年5月30日

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

Arxiv

0+阅读 · 2023年5月29日

InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions

Arxiv

0+阅读 · 2023年5月29日

DiffusionNAG: Task-guided Neural Architecture Generation with Diffusion Models

Arxiv

0+阅读 · 2023年5月26日

Diffusion Models in Vision: A Survey

Arxiv

29+阅读 · 2022年9月10日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models

Arxiv

13+阅读 · 2021年3月8日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

VIP会员

相关主题

粤港澳大湾区数字经济研究院

相关VIP内容

去噪扩散概率模型，46页ppt

去噪扩散概率模型，46页ppt

专知会员服务

63+阅读 · 2023年1月4日

基于条件扩散模型的文本到图像合成, 32页ppt

基于条件扩散模型的文本到图像合成, 32页ppt

专知会员服务

26+阅读 · 2022年11月21日

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

【NeurIPS 2022】Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器

专知会员服务

49+阅读 · 2022年11月17日

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

扩散模型数学太难？经典扩散模型DDPM手把手Pytorch代码实现，对照数学公式详解

专知会员服务

123+阅读 · 2022年9月8日

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

【NUS-Xavier教授】生成模型VAE与GAN，69页ppt

专知会员服务

74+阅读 · 2022年4月6日

无监督学习：深度生成模型，35页ppt

专知会员服务

42+阅读 · 2021年7月4日

计算机视觉中的自监督学习与注意力建模

专知会员服务

60+阅读 · 2021年4月11日

【CVPR2021】GAN人脸预训练模型

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

【ACM MM2020】对偶注意力GAN语义图像合成

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

GANs最新综述论文: 生成式对抗网络及其变种如何有用

GANs最新综述论文: 生成式对抗网络及其变种如何有用

专知会员服务

72+阅读 · 2019年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】通过真实世界实践赋能机器人自主性

军用无人机集群技术尚未成熟——但潜力可期

人工智能安全治理白皮书（2025）

AgentOps综述：分类、挑战与未来方向

相关资讯

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

机器之心

0+阅读 · 2022年11月14日

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

1句话生成视频AI爆火！Meta最新SOTA模型让网友大受震撼

新智元

2+阅读 · 2022年9月30日

Diffusion Model一发力，GAN就过时了？？？

Diffusion Model一发力，GAN就过时了？？？

量子位

3+阅读 · 2022年8月20日

千万别让富坚义博看到这个

千万别让富坚义博看到这个

量子位

0+阅读 · 2022年7月22日

扩散模型在图像生成领域大火，风头超过GAN？

扩散模型在图像生成领域大火，风头超过GAN？

夕小瑶的卖萌屋

0+阅读 · 2022年6月7日

【GAN】生成对抗网络(GAN)的发展史

【GAN】生成对抗网络(GAN)的发展史

产业智能官

16+阅读 · 2020年3月20日

多图对比看懂GAN与VAE的各种变体

多图对比看懂GAN与VAE的各种变体

炼数成金订阅号

47+阅读 · 2017年9月6日

手把手 | 生成式对抗网络（GAN）之MNIST数据生成

手把手 | 生成式对抗网络（GAN）之MNIST数据生成

数说工作室

10+阅读 · 2017年7月31日

深度神经网络生成模型：从 GAN VAE 到 CVAE-GAN

深度神经网络生成模型：从 GAN VAE 到 CVAE-GAN

AI100

11+阅读 · 2017年7月20日

GAN猫的脸

机械鸡

11+阅读 · 2017年7月8日

相关基金

多回热循环耦合型大功率高效行波热声转换机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

硅基同质异质结太阳电池物理与器件研究

国家自然科学基金

0+阅读 · 2014年12月31日

多铁性分子器件中的隧穿磁致电阻和遂穿电致电阻的机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

Lai-Massey分组密码模型的安全性研究

国家自然科学基金

1+阅读 · 2012年12月31日

PbS量子点薄膜作缓冲层的ZnO纳米杆与Cu2O薄膜异质结太阳电池

国家自然科学基金

0+阅读 · 2012年12月31日

MOCVD异质外延GaN过程中横向生长效应的研究

国家自然科学基金

0+阅读 · 2012年12月31日

量子信息中的量子游走

国家自然科学基金

0+阅读 · 2012年12月31日

表面等离子体增强TiO2纳米管阵列薄膜光催化水解制氢机理研究

国家自然科学基金

0+阅读 · 2011年12月31日

GSMBE 1.55微米 InAs/InGaAsP 量子点激光器材料与器件

国家自然科学基金

0+阅读 · 2009年12月31日

异步低功耗LDPC解码器设计

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

Arxiv

0+阅读 · 2023年5月30日

Nested Diffusion Processes for Anytime Image Generation

Arxiv

0+阅读 · 2023年5月30日

HiFA: High-fidelity Text-to-3D with Advanced Diffusion Guidance

Arxiv

0+阅读 · 2023年5月30日

RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

Arxiv

0+阅读 · 2023年5月29日

InstructEdit: Improving Automatic Masks for Diffusion-based Image Editing With User Instructions

Arxiv

0+阅读 · 2023年5月29日

DiffusionNAG: Task-guided Neural Architecture Generation with Diffusion Models

Arxiv

0+阅读 · 2023年5月26日

Diffusion Models in Vision: A Survey

Arxiv

29+阅读 · 2022年9月10日

A Survey on Generative Diffusion Model

Arxiv

46+阅读 · 2022年9月6日

Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models

Arxiv

13+阅读 · 2021年3月8日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

大家都在搜

大型语言模型

CMU博士论文

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员