【导读】继图像分类、预训练模型之后,GAN又被用到神经架构搜索上。一个华人研究团队发现了一个新的架构突破,这种名叫AutoGAN的新架构在无条件图像生成任务方面优于当前最先进的人工制作的GAN,可见NAS在深度学习领域潜力无穷。
生成对抗网络(GAN)自其诞生以来一直盛行。它的一个最显著的成功在于是用各种各样的卷积结构生成逼真的自然图像。
近年来,人们对自动设计复杂的神经网络架构产生了浓厚的兴趣。神经架构搜索(NAS)已经成功地开发和评估了图像分类任务以及最近的图像分割。发现的架构优于人工设计的模型。然而,单纯地将现有的NAS想法从图像分类/分割移植到GAN是不够的。
首先,即使采用人工设计的架构,GAN的训练也是出了名的不稳定且容易崩溃。将NAS融入训练过程无疑会加大难度。作为另一个重要挑战,虽然验证准确性为图像分类中的NAS提供了自然的奖励选择,但选择用于评估和指导GAN搜索过程的良好度量标准并不那么简单。
论文链接:
https://arxiv.org/pdf/1908.03835v1.pdf
德克萨斯A&M大学和MIT-IBM Watson AI实验室的研究人员介绍了一种专为GAN量身定制的架构搜索方案,称为AutoGAN。AutoGAN是第一次将NAS与GAN结合使用的尝试,并且是首次尝试将NAS扩展到图像分类之外。这项研究的技术创新总结如下:
-
定义搜索空间以捕获GAN架构变化。最重要的是,使用RNN控制器来指导架构搜索。基于参数共享策略,在搜索过程中进一步引入了参数动态重置策略,以提高训练速度。
-
在基于强化学习的AutoGAN优化中,使用Inception score(IS)作为奖励。发现的模型在其他GAN指标下也表现出良好的性能,例如Fréchet Inception Distance(FID)。
-
研究人员进一步向AutoGAN引入了多级架构搜索(MLAS),这是由渐进式GAN训练推动的。MLA以自下而上的顺序,分多个阶段执行搜索,并使用波束搜索(beam search)。
研究人员进行了各种实验来验证AutoGAN的有效性。发现的架构产生了非常有希望的结果,
这些结果优于当前人工设计的GAN或与之相当
。在CIFAR-10数据集上,AutoGAN获得了8.55的初始分数和12.42的FID分数。此外,研究人员还发现,在CIFAR-10上发现的体系结构甚至在STL-10图像生成任务上具有竞争力,初始分数为9.16,FID分数为31.01,显示出很强的可迁移性。在这两个数据集上,AutoGAN创造了新的最高的FID分数。
作者:Xinyu Gong 、Shiyu Chang 、Yifan Jiang、Zhangyang Wang
论文链接:https://arxiv.org/pdf/1908.03835v1
实现地址:https://github.com/TAMU-VITA/AutoGAN
GAN由两个互相竞争和对抗的两个网络组成:生成器和判别器。众所周知,这两种架构必须在学习能力上实现微妙的平衡。因此,要构建AutoGAN,第一个问题是:如何在GAN(生成器和鉴别器,以下表示为G和D)中一起构建两个网络?一方面,如果使用预先固定的D(或G)并仅搜索G(或D),则很容易引起D或G 之间在性能上的不平衡,导致更新缓慢,或学习过程支离破碎。另一方面,虽然可以对G和D进行联合搜索,但经验和实验表明,这样的双向NAS将使得原本就不稳定的GAN训练变得更加恶化,导致训练曲线震荡剧烈,而且经常不能收敛。
权衡之下,研究人员建议使用NAS仅搜索G的体系结构,同时通过遵循给定的例程来堆叠预定义模块来增加D的深度。因此,AutoGAN遵循以下基本思想:使用递归神经网络(RNN)控制器从其搜索空间中选择模块来构建G网络。基本方案如图1所示。整个过程中进行了多个创新,以解决训练GAN的具体任务带来的独特挑战。
图3:AutoGAN在CIFAR-10上发现的AutoGAN(生成器)架构
研究人员采用CIFAR-10 作为AutoGAN的主要测试平台。它由50,000个训练图像和10,000个测试图像组成,每个图像的分辨率为32×32。只使用训练集训练AutoGAN,无需任何数据扩充。另外,使用STL-10数据集来显示AutoGAN发现架构的可转移性。在使用STL-10进行训练时,采用5000张图像的训练集和100000张图像的未标记集。所有图像都调整为48×48,没有增补任何其他数据。
在训练共享GAN时,研究人员遵循频谱归一化GAN 的训练设置。发生器和鉴别器的学习率设置为2e-4,使用铰链损耗和Adam优化器,鉴别器的批规模为64,发生器的批量大小为128。频谱归一化仅在鉴别器上强制执行。使用Adam 训练控制器,学习率为3.5e-4。将控制器输出概率的熵添加到奖励中,加权1e-4,以鼓励探索。搜索AutoGAN 90次迭代。对于每次迭代,共享GAN将被训练15步,控制器训练30步。动态重置方差阈值设置为1e-3。使用与共享GAN相同的训练设置训练发现的体系结构,进行50,000次生成器迭代。
表1:CIFAR-10上无条件图像生成任务的初始分数和FID分数。研究人员获得了最新的FID分数12.42
图4:生成的AutoGAN的CIFAR-10结果,结果为随机抽样而非有意挑选
表2:STL-10上无条件图像生成的初始分数和FID分数。AutoGAN在CIFAR-10上使用发现的体系结构
AutoGAN首次尝试将NAS引入GAN。它能够在CIFAR-10和STL-10数据集上识别出高效的架构,从而在当前最先进的人工制作的GAN模型中实现具有竞争力的图像生成结果。
由于GAN训练本身的高度不稳定性和超参数敏感性,AutoGAN在图像分类方面似乎比NAS更具挑战性。回想一下,在AutoML的初始阶段,它只能设计与人类专家设计的神经网络相当的小型神经网络,这些结果仅限于小型学术数据集,如CIFAR-10和Penn Treebank。同样,尽管取得了初步的成功,但毫无疑问,AutoGAN还有很大的发展空间。
为了使AutoGAN比最先进的人工设计的GAN更具竞争力,研究人员指出了一些需要继续努力的具体项目:
-
AutoGAN的当前搜索空间是有限的,并且一些强大的GAN被排除在可搜索范围之外。它需要扩大更多的构建块,这证明在GAN文献中是有效的。
-
到目前为止,研究人员尚未对高分辨率图像合成测试AutoGAN,例如ImageNet。虽然相同的算法原则上可直接应用,但计算成本会变得非常高。例如,对CIFAR-10的搜索已经需要43个小时,关键的挑战在于如何进一步提高搜索算法的效率。
-
研究人员没有释放寻找更好的鉴别者的潜力。可以在生成器和判别器之间制定交替搜索,这可以使AutoGAN变得更具挑战性。
-
最终,AutoGAN将需要具备合并标签的能力,例如条件GAN和半监督GAN。
重磅!CVer-GAN学术交流群成立啦
扫码添加CVer助手,可申请加入CVer-GAN学术交流群,同时还可以加入目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测和模型剪枝&压缩等群。一定要备注:研究方向+地点+学校/公司+昵称(如GAN+上海+上交+卡卡)
▲长按加群
▲长按关注我们
麻烦给我一个在看!