终于有人把各路StyleGAN做了个大汇总

会员服务 ·

终于有人把各路StyleGAN做了个大汇总 | Reddit超热

2021 年 11 月 15 日 量子位

丰色发自凹非寺
量子位报道 | 公众号 QbitAI

StyleGAN在各种图像处理和编辑任务上，表现很惊艳。

然而，“干一种活”就得换个体系重新“培训”一次，太麻烦。

终于，有人细细研究了一下，发现：

其实只通过预训练和潜空间上的一点小操作，就可以让StyleGAN直接上手各种“活儿”，包括全景图生成、从单张图像生成、特征插值、图像到图像翻译等等。

更厉害的是，它在这些“活儿”上的表现还完全不输每一位单项SOTA选手。

作者顺势做了个全面整理写成了一篇论文，相关讨论在reddit上直接收获了700+的热度：

网友纷纷感叹：这总结真的是太酷了！

All You Need：预训练+一点空间操作

方法都非常简单，我们一个一个来。

前提：f_i∈R^B×C×H×W表示StyleGAN第i层的中间特征（intermediate features）。

1、空间操作实现直观和逼真的图像

由于StyleGAN是全卷积的，我们可以调整fi的空间维度，从而在输出图像中引起相应的空间变化。

用简单的空间操作（如padding和resize），可以生成更直观和真实的图像。

比如下图通过复制灌木和树丛来扩展背景，与导致纹理模糊等瑕疵的原始resize相比，在特征空间中可以保持更真实的纹理。

2、特征插值

对StyleGAN中间层进行拼贴可以实现图像信息混合，但要拼接的两张图差异太大时效果往往不好。

但采用特征插值就没问题。

具体操作方法：在每个StyleGAN层，分别使用不同的潜噪声生成fAi和fBi。然后用下面这个公式将它俩进行平滑地混合，然后再传递到下一个卷积层进行同样的操作。

其中α∈ [0, 1]^B×C×H×W是一个mask，如果用于水平混合，则mask将从左到右变大。

和对应模型的定性和定量比较：

该特征插值法能够无缝地混合两幅图像，而Suzuki等人的结果存在明显的伪影。

用户研究中，与Suzuki等人相比，87.6%的人也更喜欢该方法。

用户研究包含40人，每人需比较不同方法下的25对图像。

3、从单个图像生成

除了在不同图像之间进行特征插值，我们还可以在单个图像中应用它。

具体操作方法：在一些特征层中，选择相关的patches，并将其与其他区域混合，在空间上进行复制。使用移位运算符Shift（·）：

这和SinGAN的功能相同，不过SinGAN涉及采样，而该方法只需要手动选择用于特征插值的patches.

和SinGAN的定性和定量比较：

该方法生成的图像更加多样化和真实；SinGAN则未能以“有意义”的方式改变教堂结构，并产生不够真实的云彩和风景。

用户研究中，83.3%的人更喜欢该方法生成的新图像。

4、改进GAN反演

GAN反演的目的是在W+空间中定位一个样式码（style code），通过该样式码合成与给定目标图像相似的图像。

Wulff等人的模型认为，在简单的非线性变换下，W+空间可以用高斯分布建模。然而，在属性转移设置中，需要反转源图像和参考图像，效果并不令人满意。

最近的研究表明，与W+相比，利用σ进行面部操作的性能更好。

但作者发现，没有任何变换的σ空间也可以建模为高斯分布。

然后在这个空间而不是在GAN反转期间，施加相同的高斯先验。

效果比较：

该方法在图像重建和可编辑性方面获得了显著改进。

5、图像到图像翻译

得益于上部分σ空间的效果，作者建议在图像到图像翻译时freeze产生σ的仿射变换层（affine transformation layer），这一简单的变化能够更好地保留图像翻译的语义（注意下图d中嘴的形状）。

此外，作者发现：

（1）可以在所有空间维度上使用常数α来执行连续翻译；
（2）通过选择要执行特征插值的区域来执行局部图像翻译；
（3）以及使用改进的GAN反演在真实人脸上执行人脸编辑和翻译；

这样获得的效果也更佳。

6、全景生成

作者通过“编织”两幅图像的混合（span）生成全景图，方法如图所示：

重复这个过程可以生成任意长度的全景图像。

而且该方法不仅限于一次混合两个图像、也不限于只在水平方向生成。

一些示例：

7、属性转移

为了使特征插值能够更好地用于任意人物姿势的图像的属性转移，作者选择在源图像和参考图像之间执行姿势对齐，具体就是对齐W+空间样式代码的前2048个维度。

然后就可以应用特征插值将所选特征进行源图到目标图的转移了。

与现有方法比较：

Collins等人的方法没有准确地转移细节属性，Suzuki等人在姿势不匹配时产生的图像不够真实。

而作者的方法既准确又真实。

用户根据真实感和准确性进行选择的结果也进一步验证了该方法的优越性。

ps. 此外还可以在任意区域执行转移，比如无缝融合两边眼睛明显不同的两半脸：

以上就是无需特定架构或训练范式、在StyleGAN模型潜空间中执行一些操作和微调，就能与其他图像处理任务达到同等或更佳性能的具体方法。

你觉得如何？还有什么需要补充的吗？欢迎在评论区留言。

论文地址：
https : //arxiv.org/abs/2111.01619

项目地址：
https://github.com/mchong6/SOAT

— 完 —

李开复老师邀你参加「MEET智能未来大会」，与大咖嘉宾、AI从业者共同探讨智能科技新未来！

限时优惠&免费报名中，即刻扫码、锁定席位吧~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

StyleGAN

关注 0

【CVPR2022】用于全身图像生成的 InsetGAN

专知会员服务

26+阅读 · 2022年3月17日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

何恺明的ResNet论文，被引量刚突破10万+

专知会员服务

27+阅读 · 2021年12月19日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

ICCV2021 RealVSR: 业界首个移动端真实场景视频超分数据集

专知会员服务

24+阅读 · 2021年9月28日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

最新《生成式对抗网络GAN逆转》综述论文，22页pdf

专知会员服务

40+阅读 · 2021年1月19日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码

专知会员服务

33+阅读 · 2020年1月10日

【ICCV2019最佳论文官方代码】Official pytorch implementation of the paper: "SinGAN: Learning a Generative Model from a Single Natural Image"(从单一自然图像中学习的无条件生成模型) 附PDF论文

专知会员服务

22+阅读 · 2019年11月2日

OpenAI的DALL·E迎来升级，不止文本生成图像，还可二次创作

机器之心

1+阅读 · 2022年4月7日

特拉维夫大学把StyleGAN进行了大汇总，全面了解SOTA方法、架构新进展

机器之心

2+阅读 · 2022年4月3日

CVPR 2022 | Adobe把GAN搞成了缝合怪！凭空P出一张1024分辨率全身人像

CVer

0+阅读 · 2022年3月27日

字节最新文本生成图像AI，训练集里居然没有一张带文字描述的图片？！

量子位

1+阅读 · 2022年3月23日

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图

量子位

0+阅读 · 2022年2月16日

“众所周知，视频不能P”，GAN：是吗？

量子位

0+阅读 · 2022年1月25日

这二维码鬼畜起来了，加颜色加插画还能加GIF

量子位

0+阅读 · 2021年12月9日

英伟达把P图软件GAN了

THU数据派

0+阅读 · 2021年12月6日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

火爆全网，却只有4页！ICLR爆款论文「你只需要Patch」到底香不香？

新智元

0+阅读 · 2021年10月18日

星载红外多光谱运动目标探测杂波抑制方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于变分结构纹理分解的超分辨率图像复原方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

环境参数对激光水中传输衰减特性的影响

国家自然科学基金

0+阅读 · 2012年12月31日

太平洋固氮生物的多样性和生物固氮粒级结构研究

国家自然科学基金

0+阅读 · 2012年12月31日

Arisandilactone A 的不对称全合成

国家自然科学基金

0+阅读 · 2012年12月31日

基于样本的植物模型合成及重建技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

图和复杂网络的谱分析

国家自然科学基金

1+阅读 · 2009年12月31日

Bmα14多肽与通道β20122;基协同调节钠通道功能的机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

复杂网络拓扑结构抗毁性的谱测度研究

国家自然科学基金

0+阅读 · 2009年12月31日

共焦反射/荧光实时三维成像系统用于皮肤病诊断

国家自然科学基金

0+阅读 · 2008年12月31日

Backdooring Explainable Machine Learning

Arxiv

0+阅读 · 2022年4月20日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis

Arxiv

0+阅读 · 2022年4月19日

Neural Space-filling Curves

Arxiv

0+阅读 · 2022年4月18日

Recurrent neural networks that generalize from examples and optimize by dreaming

Arxiv

0+阅读 · 2022年4月17日

StyleT2F: Generating Human Faces from Textual Description Using StyleGAN2

Arxiv

0+阅读 · 2022年4月17日

AMMUS : A Survey of Transformer-based Pretrained Models in Natural Language Processing

Arxiv

24+阅读 · 2021年8月12日

A Survey on Neural Speech Synthesis

Arxiv

14+阅读 · 2021年6月30日

GAN Inversion: A Survey

Arxiv

19+阅读 · 2021年1月14日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

VIP会员