GAN正在成为新的深度学习

会员服务 ·

GAN正在成为新的深度学习

2018 年 6 月 9 日 新智元

新智元报道

来源：Jordi Pont-Tuset，Google Research

编辑：文强

【新智元导读】计算机视觉顶会CVPR 2018召开在即，从接收的论文看，这届会议展现出了怎样的趋势？你不要不信，生成对抗网络GAN，正在成为新的“深度学习”。

又到了一年一度CVPR的时节。

当被接收的论文列表公布以后（点击这里查看所有论文列表），爱统计趋势的我们又有很多事情可以做了。

这一次，Google Research的研究科学家Jordi Pont-Tuset做了一个统计，根据论文题目，看深度学习的发展趋势。结果，他发现生成对抗网络（GAN）强势出击，大有取代“深度学习”（Deep Learning）之势。

下面这张图展示了CVPR 2018的论文题目中，关键词GAN、Deep，以及LSTM的对比：

可以看出，普通的“深度学习”已经在走下坡路，而且趋势明显。Jordi Pont-Tuset认为，这很可能是研究人员已经见惯不惯了。

与此同时，GAN则大幅抬头，有8%的论文标题中含有GAN（相比2017年增长了2倍多），已经不能说是少数，而是相当有分量的一个方向了。

此外，LSTM也出现下滑，可能是越来越多人开始关注并使用Attention的方法。

“深度学习”趋于饱和，GAN强势飞升

GAN的上升趋势并不是从CVPR 2018才开始的。下面这张图展示了从2013年到2017年CVPR期间，GAN（以及LSTM）在CVPR、ICCV和ECCV这三大计算机视觉顶会论文标题中出现的频次。统计者依然是Jordi Pont-Tuset。

尽管占比的绝对值不高（在2017年时为2.5%），但可以发现GAN从CVPR-16开始一飞冲天的趋势。

这种趋势在随后举行的ICCV 2017上更加明显，GAN在ICCV-17上已经超越了LSTM，并且占比达到了4%。

再来看“深度学习”，三大CV顶会的数据表明，历经2014年到2016年的火爆，从2017年开始，虽然还在增长（CVPR的稍微多一些），但都已趋于饱和。

GAN是新的“深度学习”？

需要指出，这里统计的仅仅是三大计算机视觉会议接收论文的标题里的关键词。

就像Jordi Pont-Tuset推测的那样，普通的“深度学习”可能已经为人熟知，如今在研究领域开始往更细的、更具体的方向发展，比如GAN。

生成对抗网络（Generative Adversarial Nets）在 Ian Goodfellow 等人2014年的论文《Generative Adversarial Nets》中提出，是非监督学习的一种方法，通过让两个神经网络相互博弈的方式进行学习。

GAN结构示意。来源：Slinuxer

生成对抗网络由一个生成网络（Generator）与一个判别网络（Discriminator）组成。生成网络从潜在空间（latent space）中随机采样作为输入，其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出，其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数，最终目的是使判别网络无法判断生成网络的输出结果是否真实。生成对抗网络常用于生成以假乱真的图片。此外，该方法还被用于生成视频、三维物体模型等。

现在，《Generative Adversarial Nets》这篇论文的引用数量已经达到了3363次。

在一次Quora问答直播中，Yann LeCun表示，生成对抗性网络是近十年来最有趣的想法，是人工智能最值得期待的算法之一。

去年在接受吴恩达的采访时，Ian Goodfellow曾经说，GAN是生成模型的一种，实际上 GAN 能做的事情，很多其他生成模型也能做，如果GAN的训练能稳定下来，甚至像深度学习那么可靠，那么GAN就能真正发展起来。如果不能，那么GAN 将会被其他方法所取代。他有大约 40% 的时间都用在稳定 GAN 上面。

至少从这届CVPR看，GAN被取代的情况还完全不存在。

现在，有很多针对GAN的研究，除了Ian Goodfellow所在的谷歌和他之前所在的OpenAI，FAIR/NYU也是一大重镇。实际上，是FAIR/NYU最先把GAN带进了我们的视野，提出了LAPGAN，那是GAN第一次生成了逼真的高清图像，也是第一次得到媒体曝光。

另外一个重要阵营是伯克利+英伟达，他们专注超高清逼真图像和视频，无监督翻译，等等。伯克利的CycleGAN，利用对偶学习并结合GAN机制来优化生成图片的效果。英伟达则采取“渐进式生成”技术训练GAN，让计算机可以生成1024*1024大小的高清图片，几乎可以以假乱真。