重磅突破：从36.8到52.52，引入自我注意力模块的SAGAN

2018 年 5 月 24 日 论智

来源：arXiv

编译：Bot

编者按：近年来GAN的发展如火如荼，相关成果也不断涌现。但随着它在图像生成领域的深入实践，研究人员也发现GAN在生成多类图像上始终存在局限。其中的一个关键是它只能从低分辨率特征中提取信息，缺乏对高分辨率特征的理解和对各类特征的长期记忆。近日，罗杰斯大学和Google Brain的研究人员合作发表了一篇论文，大胆把NLP中的self-attention模型引入GAN，解决了特征记忆问题，把图像生成的基础分从36.8一下提到了52.52。

注：本文一作是StackGAN的一作Zhang Han，他的博士生导师Dimitris Metaxas和GAN之父Ian Goodfellow、Google Brain的Augustus Odena也参与了研究。

摘要

这篇论文提出了一种自我注意力生成对抗网络（SAGAN），它能针对图像生成任务建立一个由注意力驱动的、具备广域依赖性（long-range dependency，类比NLP中的长期依赖）的模型。在过去，传统卷积GAN生成高分辨率图像的方法是对低层级特征图上的局部点做函数计算，但SAGAN可以使用来自所有特征位置的信息生成图像细节，同时保证判别器能鉴别距离较远的两个特征之间的一致性。

此外，近期的一些研究表明，生成器会影响GAN的整体性能。所以SAGAN在生成器中引入谱归一化（Special Normalization）的思想，并以此提高了模型训练的稳定性。SAGAN取得的成果是state-of-art的，它在ImageNet数据集上把Inception Score初始分数从原记录的36.8提高到了52.52，并把FID（Fréchet Inception Distance）从27.62降到了18.65。通过可视化注意力层，我们发现生成器利用的是与对象形状相对应的邻域，而不是固定形状的局部区域。

传统GAN的问题

图像生成是计算机视觉领域的一个重要问题。自GAN提出以来，研究人员已经做出了许多突破性成果，并证明了CNN在图像生成上的成功应用。但这些GAN都有一个缺点，就是在包含多类图像的大型数据集上训练后，它们无法明确区分图像类别，难以捕捉到这些图像的结构、质地、细节等，因此我们不能用一个GAN生成大量类别不一的高质量图像。

例如非常先进的ImageNet GAN模型cGAN，它只需一些简单的结构特征就能生成各类图像，如下图所示，它在生成毛发质地上表现出色，但还是没法描绘出动物腿部的清晰轮廓。

cGAN

对此，Zhang Han等人提出的一种可能的解释是，以前的模型在很大程度上依赖卷积操作模拟图像不同区域之间的依赖关系。每个卷积操作都有一个局部感受野（receptive field），而特征之间的远距离相关性往往要经过数个卷积层才会显现出来，这就为学习长期依赖带来了困难：

如果模型过小，它可能无法学习相关性；
优化算法在调参时要仔细协调多层信息，实现难度大；
即便调出最佳参数，如果输入模型从没见过的图像，模型的输出很可能会很糟糕。

另一方面，虽然增加卷积核大小（感受野大小）可以保留更多表示，但这是以牺牲效率和计算量为代价的。相比之下，自我注意力模型能兼顾模拟远距离依赖、效率和计算量这三个方面，是一种更合适的选择。

SAGAN的具体做法

SAGAN的相关研究（Related Work）很简单明了，就是GAN和注意力模型。对于这两个非常火的概念，作者在论文中没有多加叙述，论智也相信各位读者能从其他地方找到更专业的介绍。

如上图所示，SAGAN不是通过固定形状的局部区域来生成图像，而是利用图像较远部分的互补特征生成一致的对象/场景。每一行第一副图上的彩色点表示查询位置，之后几幅图是其相对应的注意力图（attention map），图中箭头表示“最受关注”的区域。

那么它背后的数学原理是什么？

大多数基于GAN的图像生成模型都依赖卷积操作，但它只适合处理邻域信息，在计算远距离特征上效率很低。为了使发生器和鉴别器能更高效地建模更广泛空间内的特征关系，论文作者借鉴了王小龙等人提出的Non-local Neural Networks，后者关注的是如何建立起图像上两个有一定距离的像素之间的联系。

Non-local Neural Networks结构图来源：@知乎Gapeng

SAGAN中的自我注意力模块：⊗表示矩阵乘法，每一行都用Softmax归一化

两者结构基本一致。

x ∈ lR^C×N，表示前一个隐藏层中的图像特征；
f(x) = W_fx，g(x) = W_gx，表示图像特征乘上不同权重矩阵后得到的两个特征空间；

β_j,i，是f(x)⊗g(x)经softmax后的结果，表示模型合成j区域图像内容时i区域的参与程度，即相关性；

把全局空间信息和局部信息整合到一起，其中o = (o₁, o₂, ..., o_j , ..., o_N ) ∈ lR^C×N。

注意力层的最终输出。为了兼顾邻域信息和远距离特征相关性，这里他们引入了一个参数γ，它从0开始初始化，为的是让网络首先关注邻域信息——比较简单——之后在慢慢把权重分配到其他远距离特征上。

简而言之，卷积操作的感受野是有限的，虽然我们可以通过filter叠加扩大感受野，但那样做得不偿失。为了让生成器和判定器能提取高分辨率特征，我们可以在某些层能够引入全局信息，让它们能更充分地联系“上下文”。

在第一个算式中，β_j,i计算的是每个点的特征向量（通道个数的维度）的内积，保留了空间信息，而不是通道数×通道数大小的协方差矩阵，满足了全局信息提供的要求。至于最后引入参数γ，则是希望SAGAN能从简单任务学起，慢慢过渡到复杂任务。

论文作者在生成器和判别器中都加入了注意力模块，而且以对抗损失最小的前提进行了训练。

实验及结果

在进行实验前，作者使用了两种方法来稳定模型训练：首先，对生成器和判别器同时做谱归一化；其次，在生成器和判别器中使用不同的学习率（TTUR）。他们发现这样做可以解决判别器正则化过程中学习速度过慢的问题。

用谱归一化（SN）和TTUR稳定训练

他们比较了自我注意力模块和残差模块在GAN中的表现。这些模块被添加到网络的不同层，整个模型进行了上百万次迭代的训练。实验结果证明，无论是FID还是IS，自我注意力模块的表现都是最好的。

下表是SAGAN和其他两个state-of-the-art GAN模型在生成ImageNet图片上的对比。很显然，SAGAN的战斗力和AC-GAN、SNGAN完全不在一个级别，仅Inception Score初始分数一项就提升了42.7%，FID也降低了32.5%，进步巨大。

最后我们再就动物腿部的细节看一看SAGAN的表现。如下图所示（图像压缩可能影响清晰度），它在还原动物皮毛质地上的表现不比之前的cGAN差，不同的是它很清晰地呈现了动物的腿部情况，还生成了对应的纹理，效果提升明显。

原文地址：arxiv.org/pdf/1805.08318.pdf

参考文献：

[深度学习论文笔记][arxiv 1711] Non-local Neural Networks By KFXW
Non-local neural networks By Gapeng

登录查看更多

相关内容

GAN

关注 91

GAN：生成性对抗网，深度学习模型的一种，在神经网络模型中引入竞争机制，非常流行。

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【IJCAI2020-CMU】结构注意力的神经抽象摘要

专知会员服务

22+阅读 · 2020年4月23日

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

图神经网络表达能力的研究综述，41页pdf

专知会员服务

173+阅读 · 2020年3月10日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

重磅！Geoffrey Hinton新论文「视觉表示对比学习简单框架」自监督学习建立新SOTA-ImageNet准确率76.5%

专知会员服务

33+阅读 · 2020年2月15日

完整版！《GAN实战：生成对抗网络深度学习》在线书与代码，牛津大学Jakub著作 (附下载)

专知会员服务

354+阅读 · 2019年12月25日

【表示学习(Representation Learning)】8篇 NeurIPS 2019论文选读

专知会员服务

54+阅读 · 2019年12月22日

【何恺明团队新论文】PointRend:将图像分割视作渲染问题，性能显著提升！

专知会员服务

28+阅读 · 2019年12月19日

【ICML2019 Tutorials】深度学习中的注意力（A Tutorial on Attention in Deep Learning），Amazon Web Services应用科学家| Aston Zhang，Amazon Web Services机器学习总监| Alex Smola

专知会员服务

33+阅读 · 2019年6月10日

GAN用于无监督表征学习，效果依然惊人……

机器之心

12+阅读 · 2019年7月9日

【ICML2019】IanGoodfellow自注意力GAN的代码与PPT

GAN生成式对抗网络

18+阅读 · 2019年6月30日

能生成逼真图像的不只有 GAN

机器学习算法与Python学习

8+阅读 · 2019年6月6日

Self-Attention GAN 中的 self-attention 机制

PaperWeekly

12+阅读 · 2019年3月6日

DeepMind：从52.52到166.3，图像生成再现巨大突破

论智

3+阅读 · 2018年10月3日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

【深度】Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

GAN生成式对抗网络

4+阅读 · 2018年5月27日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

基于GAN的极限图像压缩框架

论智

12+阅读 · 2018年4月15日

GAN猫的脸

机械鸡

11+阅读 · 2017年7月8日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

Arxiv

7+阅读 · 2019年10月8日

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Arxiv

5+阅读 · 2018年9月28日

ClusterGAN : Latent Space Clustering in Generative Adversarial Networks

Arxiv

10+阅读 · 2018年9月10日

Hyperbolic Attention Networks

Arxiv

9+阅读 · 2018年5月24日

Self-Attention Generative Adversarial Networks

Arxiv

8+阅读 · 2018年5月21日

Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention

Arxiv

7+阅读 · 2018年5月21日

Learning to Guide Decoding for Image Captioning

Arxiv

6+阅读 · 2018年4月3日

Iterative Visual Reasoning Beyond Convolutions

Arxiv

3+阅读 · 2018年3月29日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

VIP会员