随着深度学习的快速发展, 生成式模型领域也取得了显著进展. 生成对抗网络(Generative adversarial network, GAN)是一种无监督的学习方法, 它是根据博弈论中的二人零和博弈理论提出的. GAN具有一个生成器网络和一个判别器网络, 并通过对抗学习进行训练. 近年来, GAN成为一个炙手可热的研究方向. GAN不仅在图像领域取得了不错的成绩, 还在自然语言处理(Natural language processing, NLP)以及其他领域崭露头角. 本文对GAN的基本原理、训练过程和传统GAN存在的问题进行了阐述, 进一步详细介绍了通过损失函数的修改、网络结构的变化以及两者结合的手段提出的GAN变种模型的原理结构, 其中包括: 条件生成对抗网络(Conditional GAN, CGAN)、基于Wasserstein 距离的生成对抗网络(Wasserstein-GAN, WGAN)及其基于梯度策略的WGAN (WGAN-gradient penalty, WGAN-GP)、基于互信息理论的生成对抗网络(Informational-GAN, InfoGAN)、序列生成对抗网络(Sequence GAN, SeqGAN)、Pix2Pix、循环一致生成对抗网络(Cycle-consistent GAN, Cycle GAN)及其增强Cycle-GAN (Augmented CycleGAN). 概述了在计算机视觉、语音与NLP领域中基于GAN和相应GAN变种模型的基本原理结构, 其中包括: 基于CGAN的脸部老化应用(Face aging CGAN, Age-cGAN)、双路径生成对抗网络(Two-pathway GAN, TP-GAN)、表示解析学习生成对抗网络(Disentangled representation learning GAN, DR-GAN)、对偶学习生成对抗网络(DualGAN)、GeneGAN、语音增强生成对抗网络(Speech enhancement GAN, SEGAN)等. 介绍了GAN在医学、数据增强等领域的应用情况, 其中包括: 数据增强生成对抗网络(Data augmentation GAN, DAGAN)、医学生成对抗网络(Medical GAN, MedGAN)、无监督像素级域自适应方法(Unsupervised pixel-level domain adaptation method, PixelDA). 最后对GAN未来发展趋势及方向进行了展望.
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180831
自2012年以来, 深度学习的快速发展使得人工智能研究得到飞速进步. 当今, 人工智能发展正处于快速上升时期, 大量研究人员将精力以及资本投入到人工智能领域. 人工智能的发展是有目共睹的, 从无人机走进人们生活, 到Goolge人工智能围棋程序AlphaGo打败人类顶级选手, 无不证明了深度学习近年来的迅速发展. 从AlphaGo发展历程可以看出, 自2016年以来, 它的目标对手早已不是人类顶级选手, 而是与之前自己的版本进行较量, 开辟属于它的全新领域. AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search), 借助估值网络(value network)与策略网络(policy network)这两种深度神经网络来评估选点和选择落点[1].
此外, 深度学习的发展受神经网络的制约, 神经网络可以说是深度学习的灵魂, 其广泛的应用场景使得深度学习研究的深度和广度都得到了空前的提高. 本综述的生成对抗网络, 不论是生成器还是判别器均采用了神经网络, 并且在提及的多个应用领域中都将大量采用神经网络. 在过去的数年中, 神经网络的研究在图像、语音识别、自然语言处理领域等都取得了令人瞩目的成果. 但是神经网络也有参数多、训练难的特点, 其相应的改进也是层出不穷. 并且随着计算能力的飞速提升, 神经网络能够更快地训练更多的参数.
在生成式模型中, 生成对抗网络(Generative adversarial network, GAN)[2]是一类特殊的存在. 它的提出不仅使各个领域的发展达到新的高度, 更是促使人工智能领域走向了一个具有“思想”的时代. 可以说, GAN就是“做梦”, 因为在自然界当中, 只有哺乳类才会做梦, 这就是GAN在人工智能(Artificial intelligence, AI)领域的份量. GAN 可以说就是一个具有对抗思想的网络结构. 尽管GAN的变种模型层出不穷, 并且用途广泛, 但是其核心一直没有发生变化, 即对抗思想一直没有发生变化. 关于对抗思想的介绍可参照王坤峰等[3]提出的对抗思想, 即在博弈、竞争中包含着对抗的思想. GAN的对抗思想就是在生成数据的过程中加入一个可以判断真实数据和生成数据的判别器, 使生成器(Generator)和判别器(Discriminator) 相互对抗, 判别器的作用是努力地分辨真实数据和生成数据, 生成器的作用是努力改进自己从而生成可以迷惑判别器的数据. 当判别器无法再分别出真假数据, 则认为此时的生成器已经达到了一个不错的生成效果. 这种GAN对抗思想的提出可以说对生成式模型的发展具有重要的意义.
GAN是一个无监督生成式模型. 模型主要分为两类, 一类是生成式模型, 另一类是判别式模型. 生成式模型会对
1) 生成式模型会对数据的分布做出一定的假设, 并且只有在满足这些假设时, 它才能在这些服从假设概率分布的数据上得到不错的效果. 若假设不成立, 则判别式模型将会有更好的学习效果.
2) 若需要对类别进行更新, 生成式模型只需要对新的
3) 在对错误率进行分析方面, 生成式模型最终得到的错误率将比判别式模型的错误率更高, 但是生成式模型的抽样复杂性较低, 只需要很少的样本就可以使错误率收敛.
4) 对于无标签的数据, 生成式模型(例如: 深度信念网络(Deep belief network, DBN))能更好地利用数据本身所包含的信息.
5) 判别式模型通常需要解决凸优化问题.
以上是对生成式模型进行的简单分析, 下面对生成式模型进行讨论. 生成式模型主要分为变分自编码(Variational auto-encoder, VAE)和GAN.
首先, VAE[4]是基于变分思想的深度学习的生成式模型. 假设
与VAE相比, GAN没有使用变分下界, 如果判别器训练良好, 那么生成器可以完美地学习到训练样本的概率分布. 换句话说, GAN是渐进一致的, 而VAE是有偏估计. GAN顾名思义包含了两个网络子模型, 生成器和判别器. 这里可以将两个网络分别比作造假币的罪犯(生成器)和警察(判别器). 罪犯的任务是生成足够逼真的假钞来欺骗警察, 让警察以为假钞就是真钞; 而警察的任务是判别钞票的真假. 最终警察将无法区别真钞和假钞. 生成器和判别器最终优化目标是达到纳什均衡[5].
既然两个生成模型都具有各自的优点, 若将VAE与GAN相结合, 那么GAN能够生成质量很好的图片, 特征明显且清晰. 而VAE则是将原始图片重构, 在编码器的作用下编码生成隐向量, 这个向量能够在服从高斯分布的情况下, 保留原图像的特征. VAE-GAN[6]的提出实现了这个思想, 这样就可以使用GAN的判别器学习特征表示, VAE为重构目标提供帮助. 其结构如图1所示. 这样做的好处在于VAE + GAN能够在生成高质量图像的同时保持模型的稳定.
到目前为止, GAN的主要应用场景集中在三大领域. 在图像处理领域, 例如: 在人脸识别和合成、图像超分辨率和图像转换等方面都取得不错的成绩; 在语音处理领域, GAN也有了一定的发展, 例如: 语音增强和语音识别等; 此外, GAN在自然语言处理领域也有一定的进展, 例如: 机器翻译、双语字典和语篇分析等.
除了以上三大领域, 本文还总结了一些比较新奇的其他领域的应用. 例如, 人体姿态估计、防止恶意软件攻击、物理应用、医学数据处理以及自动驾驶等.
可以说自从Goodfellow在2014年提出GAN之后, 尤其是近几年来, GAN类的文章及应用呈井喷式爆发. 一方面, 各种应用场景给GAN的发展提出了挑战性的问题, 促使研究者根据应用场景研究新的GAN结构、模型和训练算法去解决计算机视觉、自然语言处理和语音处理中的问题; 另一方面, 新的GAN理论和模型的提出, 也拓展了人工智能在各领域中的应用广度和深度, 这也促使我们对近期GAN在各领域应用研究进展和重要文献进行总结及分析.
本文首先介绍了广泛应用的9种GAN及其变种, 然后对GAN在计算机视觉、自然语言处理和语音处理中的应用进行了详细的梳理. 最后, 探索性地给出了未来GAN的发展趋势及研究方向.
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“GAN37” 可以获取《生成对抗网络GAN在各领域应用研究进展(中文版),37页pdf》专知下载链接索引