会员服务 ·

怎样用GAN生成各种胖吉猫？谷歌大脑程序员教你撩妹神技

2018 年 5 月 18 日 量子位 特别关注前沿科技

圆栗子编译整理
量子位报道 | 公众号 QbitAI

如果，AI可以帮你生成一些猫，很萌的那种，但是不能吸，你会做何感想？

Facebook聊天框里出道的灰色短毛猫Pusheen，是柔软的微胖界宠儿，中文名字叫胖吉。

一个来自谷歌大脑的程序猿说，他和他妹子都很喜欢这只胖子。于是，他有了用AI帮妹子生出很多很多小吉 (的图片) 的想法。

△ “其实就是有了眼睛和耳朵的水滴”

当然，并不只是想想而已。

一切从这里BEGAN

生成对抗网络 (GAN) 是精分的AI，由两个神经网络组成，一是生成模型 (Generator) ，即画师，二是判别模型 (Discriminator) ，即鉴赏家。缩略为G和D。

人类要用大量的图像来喂养GAN，培养两个神经网络的艺术细菌。

△ 先把食物对成山？

然后，G可以在熏陶之下，模仿着画出自己的作品，让D以为那就是人类投喂的画；而D渐渐了解自己吃过的画是什么味道，就能辨别哪些图是G画的。

相爱相杀的日子里，两者技能都会得到有效提升。G的画功越来越像人类，D也越来越难骗。

不过，技术宅支配的不是普通的GAN，而是名为BEGAN的新朋友。

△ 结构和EBGAN差不多

它的判别模型是自编码器 (AutoEncoder) 结构，即D的输入是图像，输出是编码解码后的图像;生成模型则借鉴了WGAN的损失函数。

不过，GAN的一生阅片无数，通常需要喂食几万乃至几百万张图像，才能茁壮成长。

可惜的是，虽然贵为表情包，胖吉也没有很多照片的。

△ 尊贵的座驾

于是，机智的少年加了一个 (并不厉害的) 小特技，一幅图翻过来掉过去，或放大或缩小，或背景变白，就变出了很多训练素材。不过，毕竟原始图库几百张，扩充之后可能还是有些干瘪。

我有特别的模仿技巧

既然胖吉的姿势不多，场景也不多，技术宅当时就没有太大的幻想。他抱着养死也没事的一颗宽广的心，开始训练BEGAN。

训练过程中，D的目标是让判别错误越少越好；G的目标，是让D错得越多越好。具体来说——

一张图片相当于一个数据x，D对它编码解码后得到图像D(x)。

z是一串随机数组成的向量 (Latent Vector) ，G根据它来生成的图可表示为g(z)，D对它编码解码后得到图像D(g(z))。

△ 我说的模仿，不是cosplay

随着训练的进行，G的模仿能力越来越强，D(g(z))会越来越接近D(x)的分布。

不过，BEGAN在对比D(g(z))和D(x)之间差异的时候，用的损失函数 (Loss Function) 有些不一样。

让G作品的重构误差 (Reconstruction Error) 分布，去逼近人类作品的重构误差分布——BEGAN的损失函数使用的是这两者之间的差异。Wasserstein距离，可以把这个差异转换为真实的差异。

可能有惊喜的play

△ 卖家秀之Model 1

技术宅用3个数字组成的向量，来表示图片。他还给吃瓜党提供了自己调整向量的play——

每个角上的图像都可以自行设定，作为起点。从四角出发，生成的其他图，便是灰猫的渐变修养。

这个过程里，多多少少会有可爱的新胖吉出现。当然，生成效果并没有那么完美，畸形猫和看不出喵型的图像也理直气壮地存在。

△ 三只耳朵怎么样

程序猿友情提示，如果想少看一些畸形猫，就尽量把数字调小一些。数大了之后，容易有斑斓的色彩倾泻出来，让你忘了画猫的初衷。

不过那样的话，猫的样子也很难有丰富的变化，可能会比较单调。

△ 有种听天由命的感觉

不想费力调向量的话，就点下一键生成按钮 (如上图) ，看到比渐变过程更随机的猫阵。

为了能让浏览器对面的大家感受到猫阵的厉害，程序猿还特意用TensorFlow.js重写了程序 (怕不是想增加撒狗粮的力度吧) 。

△ 单身使我快乐

在少年提供的三个模型里，我喜欢Model 2的效果，笔触比较圆润，配色似乎也可爱一些。

技术要领探讨一下

从WGAN那里借来的损失函数，帮BEGAN保证了两个模型的势均力敌，D和G想要赢对方都不那么容易。

△ 来亚，负相桑害亚

程序猿说，不久以后就会公布自己生成胖吉用的代码，但在那之前他想先给大家划个重点。此次实验过程中发挥最好的结构和超参数如下——

· 激活函数用了带泄露整流函数 (leaky ReLU) ，alpha=2
· 批量归一化
· G，步长为1的卷积层之后，近邻 (Nearest Neighbor) 算法缩放图像两次
· D，步长为1的卷积层之后，2 x 2窗口的平均池化 (Average Pooling)
· D，每层32或64个过滤器
· G，开始每层32或64个过滤器，后面依次翻倍 (e.g, 32,32,32,64,64,64,128,128,128…)
· 100维的潜在空间
· 学习率e-4或5e-4或e-3