图像生成王者不是GAN？扩散模型最近有点火：靠加入类别条件，效果直达SOTA

会员服务 ·

图像生成王者不是GAN？扩散模型最近有点火：靠加入类别条件，效果直达SOTA

2021 年 12 月 29 日 量子位

博雯发自凹非寺
量子位报道 | 公众号 QbitAI

OpenAI刚刚推出的年末新作GLIDE，又让扩散模型小火了一把。

这个基于扩散模型的文本图像生成大模型参数规模更小，但生成的图像质量却更高。

于是，依旧是OpenAI出品，论文标题就直接号称“在图像生成上打败GAN”的ADM-G模型也重新进入了大众眼中：

光看Papers with Code上基于ImageNet数据集的图像生成模型榜单，从64 x 64到512 x 512分辨率都由这一模型占据榜首：

对比曾号称史上最强图像生成器的BigGAN-deep也不落下风，甚至还能在LSUN和ImageNet 64 × 64的图像生成效果上达到SOTA。

有网友对此感叹：前几年图像生成领域一直由GAN主导，现在看来，似乎要变成扩散模型了。

加入类别条件的扩散模型

我们先来看看扩散模型的定义。

这是一种新的图像生成的方法，其名字中的“扩散”本质上是一个迭代过程。

具体到推理中，就是从一幅完全由噪声构成的图像开始，通过预测每个步骤滤除的噪声，迭代去噪得到一个高质量的样本，然后再逐步添加更多的细节。

而OpenAI的这个ADM-G模型，则是在此基础上向图像生成任务中加入了类别条件，形成了一种独特的消融扩散模型。

研究人员分别从以下几个方面做了改进：

基本架构

基于UNet结构做了五点改进：

在保持模型大小不变的前提下，增加深度与宽度
增加注意头（Attention Head）数量
在32×32、16×16和8×8的分辨率下都使用注意力机制
使用BigGAN残差块对激活函数进行上采样和下采样
将残差连接（Residual Connections）缩小为原来的1/根号2

类别引导（Classifier Guidance）

在噪声逐步转换到信号的过程中，研究人员引入了一个预先训练好的分类网络。

它能够为中间生成图像预测并得到一个标签，也就是可以对生成的图片进行分类。

之后，再基于分类分数和目标类别之间的交叉熵损失计算梯度，用梯度引导下一步的生成采样。

缩放分类梯度（Scaling Classifier Gradients）

按超参数缩放分类网络梯度，以此来控制生成图像的多样性和精度。

比如像这样，左边是1.0规模大小的分类网络，右边是10.0大小的分类网络，可以看到，右边的生成图像明显类别更加一致：

也就是说，分类网络梯度越高，类别就越一致，精度也越高，而同时多样性也会变小。

生成领域的新热点

目前，这一模型在GitHub上已有近千标星：

而与GAN比起来，扩散模型生成的图像还更多样、更复杂。

基于同样的训练数据集时，扩散模型可以生成拥有全景、局部特写、不同角度的图像：

△左：BigGAN-deep 右：ADM

其实，自2020年谷歌发表DDPM后，扩散模型就逐渐成为了生成领域的一个新热点，

除了文章中提到的OpenAI的两篇论文之外，还有Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等多个基于扩散模型设计的生成模型。

扩散模型接下来还会在视觉任务上有哪些新的应用呢，我们来年再看。

论文链接：
https://arxiv.org/abs/2105.05233

开源链接：
https://github.com/openai/guided-diffusion

参考链接：
[1]https://www.casualganpapers.com/guided_diffusion_langevin_dynamics_classifier_guidance/Guided-Diffusion-explained.html
[2]https://www.reddit.com/r/MachineLearning/comments/rq1cnm/d_diffusion_models_beat_gans_on_image_synthesis/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

「智能汽车」交流群招募中！

欢迎关注智能汽车、自动驾驶的小伙伴们加入社群，与行业大咖交流、切磋，不错过智能汽车行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

图像生成

关注 2

CNN/MLP/Transformer, 究竟谁行？中科大&微软实证三大网络结构公平比较，各有可取之处

专知会员服务

34+阅读 · 2021年9月18日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN

专知会员服务

29+阅读 · 2020年4月6日

重磅！谷歌用扩散模型来生成视频了！刷新SOTA

CVer

1+阅读 · 2022年4月12日

视频也可以用扩散模型来生成了，效果很能打：新SOTA已达成 | 谷歌

量子位

1+阅读 · 2022年4月11日

扩散模型就是自动编码器！DeepMind研究学者提出新观点并论证

量子位

0+阅读 · 2022年2月12日

缩小规模，OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

机器之心

0+阅读 · 2021年12月22日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

基于对偶两步模型的图像放大问题

国家自然科学基金

0+阅读 · 2014年12月31日

图像标签关联性模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于尺度选择性收获的渔业资源的结构进化及动力学研究

国家自然科学基金

0+阅读 · 2012年12月31日

用户自适应的社会标签生成和优化模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

分数阶偏微分方程在图像去噪中的应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Imbalanced Classification via a Tabular Translation GAN

Arxiv

0+阅读 · 2022年4月19日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

Demystifying MMD GANs

Arxiv

12+阅读 · 2018年1月12日

VIP会员