超人总动员「真人版」长啥样？图像转换框架「pSp」让你变成「巴小飞」

会员服务 ·

超人总动员「真人版」长啥样？图像转换框架「pSp」让你变成「巴小飞」

2020 年 10 月 19 日 新智元

新智元报道

编辑：QJP

【新智元导读】前几天的迪士尼风格的图像转换你试了吗？近期，国外研究人员又提出了一个通用的图像到图像的转换框架：Pixel2Style2Pixel（pSp），可以将皮克斯风格的动画角色变成同样风格的真人图像。

近年来，GAN已经具有非常好的图像合成功能，尤其是在人脸图像上，最新的图像生成方法已经实现了很高的视觉质量和保真度，现在可以生成逼真的图像。

而该团队专注于更广泛的隐空间的嵌入，旨在检索潜在的生成所需要的但不一定已经知道的图像的向量。

为此，他们引入了一种新颖的编码器架构，该架构的任务是将任意图像直接编码为隐空间W +。同时，使用了皮克斯动画里的角色进行测试，效果也是非常的感人：

编码器基于特征金字塔网络「Feature Pyramid Network」，从不同的金字塔比例提取特征向量，并根据其空间比例将其直接插入固定的、经过预训练的StyleGAN生成器中。

是不是从皮克斯动画角色生成的「真人」，也非常动漫化呢？

蒙娜丽莎「现代版」也许长这样：

全新的框架：Pixel2Style2Pixel

在最近发表的论文《Encoding in Style: a StyleGAN Encoder for Image-to-Image Translation》中，来自 Penta-AI 和特拉维夫大学的研究人员介绍了一种通用的图像转换框架，称为 Pixel2Style2Pixel (pSp)。

与以往使用专用任务特定架构的方法不同，该论文提出的框架旨在使用相同的架构来解决各种图像到图像的任务，这是一种避免可能出现的局部偏差的全局方法。首先展示了全新的编码器可以直接嵌入真实的图像到W+，没有使用额外的优化。通过进一步引入了一个专用的损失，表明在重建输入图像的性能提高。

pSp框架是基于一种全新的编码器网络，直接生成一系列的风格向量，这些向量被输入预先训练好的StyleGAN生成器，形成扩展的W+潜在空间。

pSp是一个简单的架构，可以很容易地应用于image2image的转换任务。

通过样式表示来解决这些问题会产生一种不依赖于局部像素到像素对应的全局方法，并通过样式的重采样进一步支持多模态合成。

图：pSp框架和其他方法在CelebA-HQ数据集上的对比

面部对齐

值得注意的是，我们证明了pSp可以在不使用任何标记数据的情况下将人脸图像与正面姿态进行对齐，可以为模糊任务生成多模态结果，如从分割图片生成条件人脸，并从相应的低分辨率图像构建高分辨率图像。

图：使用输入的任意角度人脸图像生成正面的人脸图像

该方法在人脸前端化等任务中显示出强大的优势，其编码器可以在完全无监督的情况下训练，以一些表情将给定的人脸图像对齐。

研究人员指出，尽管最先进的图像生成方法 StyleGAN 可以生成具有现实感的图像，但它也有一个分离的潜在空间 w，在那里可以进行有意义的操作。

条件图像合成

由于利用潜在空间的各种方法都显示出了良好的图像到图像的转换效果，将真实图像编码到扩展潜在空间 w + 中已成为研究人员的一种常用方法，在高分辨率合成、多模态图像合成、多域图像合成、条件图像合成等领域有着广泛的应用。

然而，快速、直接、准确地将真实图像转换成 w + 仍然是一个挑战。该小组专注于后期空间嵌入的任务，其目的是检索一个生成期望的(未必知道的)图像的向量。

超高分辨率

在这里，作者还证明了他们的框架可用于从相应的低分辨率（LR）输入图像构造高分辨率（HR）面部图像。

由于该编码器是基于特征金字塔网络，样式特征向量提取自各种金字塔尺度，并直接插入到一个固定的、对象再训练的 StyleGAN 生成器中，以配合技术空间的尺度。

研究人员观察到，当一个网络被训练时，其 ID 相似性损失与以前的直接方法相比，会表现出更好的效果。

在实验中，该团队证明了他们的image2image转换框架pSp在各种应用程序中取得了引人注目的结果，同时提出了一种通过样式重采样进一步支持多模态综合的全局方法。

他们还表明，一些固有的假设需要进一步验证，例如：由于提出的方法没有利用「局部性」，保留诸如耳环或背景细节等输入图像的精细细节已成为一个挑战。

参考链接：

https://www.reddit.com/r/MachineLearning/comments/jcuch4/p_creating_real_versions_of_pixar_characters/

https://arxiv.org/pdf/2008.00951.pdf

登录查看更多

相关内容

图像到图像的转换

关注 6

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

18+阅读 · 2020年8月23日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

Google 发布图片配对基准及挑战：从系列图像重建三维物体和建筑物

专知会员服务

40+阅读 · 2020年4月4日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换

专知会员服务

36+阅读 · 2019年12月15日

学习一个宫崎骏画风的图像风格转换GAN

AI科技评论

18+阅读 · 2020年3月13日

图像分区域合成，这个新方法实现了人脸的「精准整容」

机器之心

6+阅读 · 2019年12月16日

加强版CycleGAN！贾佳亚等提出卡通图与真实人脸转换模型，看女神突破次元壁长啥样

量子位

10+阅读 · 2019年7月11日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

镜头间的风格转换行人重识别

统计学习与视觉计算组

13+阅读 · 2018年8月16日

Tensor Analysis with n-Mode Generalized Difference Subspace

Arxiv

0+阅读 · 2020年11月29日

Feature Fusion through Multitask CNN for Large-scale Remote Sensing Image Segmentation

Arxiv

6+阅读 · 2018年7月24日

Think Visually: Question Answering through Virtual Imagery

Arxiv

3+阅读 · 2018年5月25日

AlignedReID: Surpassing Human-Level Performance in Person Re-Identification

Arxiv

7+阅读 · 2018年1月31日

Interpretable R-CNN

Arxiv

4+阅读 · 2017年11月14日

VIP会员