微调迭代仅500次,大眼萌生成效果超越StyleGAN,可在线试玩

2021 年 12 月 26 日 机器之心
机器之心报道
编辑:杜伟、陈萍
JoJoGAN生成的漫画脸可以细致到捕获眼睛形状和细节。


喜欢看漫画的小伙伴,或多或少都听过《JOJO 的奇妙冒险》,简称 JOJO,这是一本由日本漫画家荒木飞吕彦所著漫画,其独特的画风,令人惊叹的剧情,可谓是青少年漫画的必看作。

好的作品总是给人以灵感,来自伊利诺伊大学厄巴纳 - 香槟分校(University of Illinois at Urbana-Champaign,UIUC)的研究者以 JOJO 为灵感,开发出一款漫画生成框架 JoJoGAN,该框架可以将任意人脸进行风格化。用户只需要给定一个单一的输入风格参照(如下图第一排图像,包括不同的动漫和卡通人物),JoJoGAN 就能将该风格应用到任何输入图像上(如下图最左边的歌手 IU,马斯克),生成的图像风格特征都保留完好,如眼睛、发色等。

例如生成长发公主风格的马斯克,眼睛大大的马斯克看起来还挺萌:


JoJoGAN 其他生成效果展示:


JoJoGAN 还能在线试玩,你也可以输入自己的图片查看生成的漫画脸,这里,我们也试玩了一下,效果还不错:


试玩地址:https://huggingface.co/spaces/akhaliq/JoJoGAN


  • 论文地址:https://arxiv.org/pdf/2112.11641.pdf

  • 项目地址:https://github.com/mchong6/JoJoGAN


总体而言,JoJoGAN 首先对一个成对的训练数据集进行近似,然后微调 StyleGAN,以执行单次(one-shot)面部风格化。该研究表明,JoJoGAN 在零监督的情况下,可以很好的保留参考图像的风格细节,还能泛化到不同的风格。

技术解读

首先来看 JoJoGAN 的工作流。

JoJoGAN 通过对具有单个参照风格图像的预训练 StyleGAN2 的微调来工作,具体分为以下四个步骤:

  • 通过 GAN 翻转参照风格图像 y 来准备近似成对训练数据,得到的风格代码 w 可以生成合理的真实人脸图像 x;

  • 找出生成真实人脸图像 x 族的 w 族,它应该与参照风格图像 y 相匹配。形成(w_i, y)对,作为成对训练集;

  • 根据这些成对训练数据进行微调;

  • 使用微调后的 StyleGAN 生成新的样本。



然后是数据准备。

使用成对数据进行训练时图像风格化任务的最佳选择,但是,成对数据不易获得,需要耗费大量时间和资源。目前,领域内没有适合本研究中任务的好的开源成对数据集。

因此,研究者想要通过如下图 3 中的近似成对训练数据集来克服这一问题。给定一个风格参照图像 y,他们使用 e4e 框架执行 GAN 反转以获得 W。由于 e4e 是在真实人脸数据集上训练的,无法泛化到分布外(out-of-distribution)风格图像,因而为研究者提供了一个近似真实人脸图像 y 的 w,形成了一个成对的(w, y)训练集。


但是,仅使用单个数据点进行训练导致对其他图像的泛化效果较差,如下图 4 所示。因此,研究者通过生成更多训练数据点来克服这一问题。思路很简单,很多真实人脸图像应该与相同风格的参照图像相匹配。例如,眼睛大小或头发纹理略有不同的人脸可以与相同的参照图像相匹配。


最后,研究者使用 Adam 优化器、以 2×10^-3 的学习率对 JoJoGAN 进行 500 次迭代的微调,在 Nvidia A40 上仅花费 1 分钟左右。

研究者将不保留颜色(non-color preserving)的 JoJoGAN 与当前 SOTA 单 / 小样本风格化方法 StyleGAN-NADA 和 BlendGAN 进行了比较。结果显示,JoJoGAN 可以捕捉定义风格的小细节,同时保持清晰的输入人脸身份特征。

如下图 5a 所示,JoJoGAN 完美地捕捉到了眼睛形状和细节以及来自风格参照的发饰;图 5d 中,JoJoGAN 准确地捕捉到了复杂的面部彩绘。相比之下,虽然 StyleGAN-NADA 也捕捉到了整体小丑妆容,但未能捕捉到眼睛和眉毛等细节,身份特征也受到了大的影响。BlendGAN 未能捕捉到有意义的风格细节,甚至连发型的颜色都不匹配。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

【CVPR2022】用于全身图像生成的 InsetGAN
专知会员服务
25+阅读 · 2022年3月17日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
31+阅读 · 2022年3月12日
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
21+阅读 · 2021年8月10日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】GAN人脸预训练模型
专知会员服务
23+阅读 · 2021年4月10日
专知会员服务
65+阅读 · 2021年3月21日
用GAN也可以P图,效果还不输PS | 英伟达出品
量子位
0+阅读 · 2021年11月12日
【CVPR2021】GAN人脸预训练模型
专知
1+阅读 · 2021年4月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
19+阅读 · 2021年1月14日
VIP会员
相关VIP内容
【CVPR2022】用于全身图像生成的 InsetGAN
专知会员服务
25+阅读 · 2022年3月17日
【CVPR 2022】视觉提示调整(VPT),Vision Prompt Tuning
专知会员服务
31+阅读 · 2022年3月12日
NeurIPS 2021 | 寻MixTraining: 一种全新的物体检测训练范式
专知会员服务
11+阅读 · 2021年12月9日
专知会员服务
18+阅读 · 2021年9月23日
专知会员服务
21+阅读 · 2021年8月10日
专知会员服务
38+阅读 · 2021年5月16日
【CVPR2021】GAN人脸预训练模型
专知会员服务
23+阅读 · 2021年4月10日
专知会员服务
65+阅读 · 2021年3月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员