会员服务 ·

人脸随意编辑！Adobe祭出新一代GAN神器：最多支持35个人脸属性变化

2022 年 3 月 9 日 新智元

新智元报道

编辑：LRS

【新智元导读】用GAN模型进行图像合成有一个显著缺点，就是生成的图像不可控制，经常是摘个眼睛把性别都变了。最近Adobe提出新一代GAN模型，能够自由控制35个人脸属性的变化，而不会互相干扰。

图像合成中的一个重要问题就是图像内的纠缠（entanglement）问题。

比如把一个人脸上的胡子全都自动去掉，或者完美地贴上胡子，最后生成的图片或多或少都有违和感，因为胡子和人脸存在某种纠缠的关系。

并且不同物体间的合成、去除的难度也不尽相同。

举几个生活中的例子就很好理解了，从牛肉面里挑出来香菜，和挑牛肉出来的难度相差很大；想从咖啡里面把糖都挑出来，那就简直是不可能完成的任务了。

有些东西天生就是捆绑在一起的，想要完美的新建、合成一张新图像，机器学习模型必须能够学会创建各种各样的物体，并且最好能够分离出不同的特征和概念。

如果模型能把年龄、性别、头发颜色、肤色、情绪等分出来，那你就可以在一个框架中随意修改这些组件，更加灵活地控制生成图像，在更加细化的水平上创建和编辑人脸等图像，能够完美避开图像的纠缠关系。

在所有实体最大纠缠的情况下，图像实际上进行的就是分类任务，例如模型识别出是Lady Gaga的一张照片。

中等纠缠情况下，模型可以进一步分解照片，发现她是金头发、微笑的表情等等，GAN模型就可以根据这些信息进行修改，并生成新图像。

完全解纠缠的状态下，模型能够进一步识别出特征，比如年龄，微笑程度等等。

在过去的几年中，已经有很多人尝试创建交互式脸部编辑模型，用户可以通过滑块或者其他传统的用户界面交互来改变图片的脸部特征，并且在进行添加或改变面部特征时保持目标人脸的核心特征不变。

然而，由于GAN潜空间中的潜特征和风格纠缠现象，所以想要任意编辑人脸特征，技术还不成熟。

例如，眼镜特征经常与老年人的特征纠缠在一起，这意味着增加眼镜可能也会使脸部「老化」，而想要让脸部老化，可能也会为面部增加一个眼镜，具体取决于高层特征的应用分离程度。

最难的是改变头发的颜色和发型，几乎不可能在不重新计算发丝和面部布局的情况下给人物「理发」。

一次训练，随意换脸

最近，Adobe在WACV2022会议上发表了一篇新论文，提供了一个解决这些基本问题的新方法。在StyleGAN生成的图像中，用于保护身份的多重面部属性编辑的学习映射器。

论文地址：

https://openaccess.thecvf.com/content/WACV2022/papers/Khodadadeh_Latent_to_Latent_A_Learned_Mapper_for_Identity_Preserving_Editing_WACV_2022_paper.pdf

论文的主要作者是Adobe的应用科学家Siavash Khodadadeh，同时还有其他四位Adobe研究人员，以及中佛罗里达大学计算机科学系的一位研究人员。

这篇论文很有意思，部分原因是Adobe已经在图像合成领域研发了一段时间，而且和Adobe公司的产品很契合，这种功能在未来几年内很有可能包装进Adobe Creative Suite项目；但主要还是因为为这个项目提出的架构采取了不同的方法，在应用变化的同时保持GAN面部编辑器的视觉完整性。

作者宣称他们训练一个神经网络来执行潜意识到潜意识的转换，找到与属性改变的图像相对应的潜编码。由于该技术是one-shot的，它不依赖于属性逐渐变化的线性或非线性轨迹。

通过在整个生成pipeline上端对端训练网络，该系统可以适应现有的生成器架构的潜空间，并能够保护属性（Conservation properties），如人的身份特征可以在训练损失中进行编码。

一旦latent-to-latent网络训练完，就可以用于任意的图像输入，而不需要微调。

这个特性也意味着文中提出的架构可以把模型一次性部署到用户终端，但它仍然需要本地资源运行一个神经网络，但新的图像可以直接丢到模型里去，并可以随意变化。因为框架是解耦的，也不需要进一步的特定图像训练。

这项工作的主要成果之一就是网络可以通过只改变目标向量中的属性来「冻结」潜空间中的身份特征。

从本质上讲，网络被嵌入到一个更通用的架构中，可以协调所有的处理元素，这些元素通过预先训练好的具有冻结权重的组件，不会对转换产生不必要的横向影响。

由于训练过程依赖于可以由种子图像（GAN inversion）或现有的初始潜编码产生的triplets，所以整个训练过程是无监督的，这类系统中习惯性的一系列标签和curation系统的能够得到有效处理。系统中使用的是现成的属性回归器（attribute regressors）。

作者在文中表示，该网络能够独立控制的属性数量只受到识别器能力的限制，如果你有一个属性的识别器，就可以把它添加到任意的面孔上。在文中实验，研究人员直接训练了一个能调整35个不同的面部属性的latent-to-latent网络，比以前的任何方法都要多。

该系统还纳入了一个额外的保障措施，以防止不想要的「副作用」转换：在没有要求改变属性的情况下，latent-to-latent网络会将一个latent向量映射到自己身上，进一步增加目标身份的稳定持久性。

在过去几年里，基于GAN和编码器/解码器的人脸编辑器的l另一个反复出现的问题是，使用的变换方法往往会降低脸部相似度。

为了解决这个问题，Adobe项目使用了一个名为FaceNet的嵌入式面部识别网络作为判别器，可以将标准的面部识别甚至表情识别系统整合到生成网络中。

该框架的另一个主要特点是能够在潜空间任意转换。通过提高GAN的空间意识，可以在潜过渡点范围内（range of potential transition points）进行图像修改，但如EQGAN等模型在面对不同材质、纹理的修改时，都需要重新训练模型。

除了可以接受全新的用户图像外，用户还可以手动「冻结」他们希望在转换过程中保留的元素。通过这种方式，用户可以确保背景等无关因素不发生变化、

属性回归网络由三个网络组成：FFHQ、CelebAMask-HQ和一个由StyleGAN-V2的Z空间采样40万个向量而产生的局部GAN网络。

分布外（Out-of-distribution, OOD）的图像被过滤掉，并使用微软的人脸API提取属性，所得的图像集被分成90/10，剩下72万张训练图像和7.2万张测试图像进行对比。

实验网络的初始配置可以容纳35个潜变换的方式，但为了对类似的框架InterFaceGAN、GANSpace和StyleFlow进行类似的测试，转换数简化为8个，分别为年龄、秃头、胡须、表情、性别、眼镜、音高和偏角（Yaw）.

实验结果和预期相符，在其他竞争的模型架构中，图像合成的结果出现了更大程度的纠缠。例如，在一个测试中，当用户要求改变人物年龄时，InterFaceGAN和StyleFlow甚至把主体的性别都给变了。

最后量化的实验结果中可以看到，除了在Yaw（头部角度）的实验中，Latent-to-Latent的效果并不理想，其余七个属性的性能基本都处于sota序列。而GANSpace对于年龄和眼镜变化的效果则更优。

参考资料：

https://www.unite.ai/adobe-research-extends-disentangled-gan-face-editing/

登录查看更多

相关内容

GAN

关注 91

GAN：生成性对抗网，深度学习模型的一种，在神经网络模型中引入竞争机制，非常流行。

【CVPR2022】用于全身图像生成的 InsetGAN

专知会员服务

26+阅读 · 2022年3月17日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

深度学习人脸特征点自动定位综述

专知会员服务

24+阅读 · 2021年12月1日

[ICCV 2021] 用于任意形状文本检测的自适应边界推荐网络

专知会员服务

11+阅读 · 2021年10月3日

【ICCV2021】一张草图训练可控的GAN？CMU朱俊彦团队

专知会员服务

22+阅读 · 2021年8月10日

【IJCAI2021】医学AI新坑：心电全景图及其生成网络

专知会员服务

21+阅读 · 2021年6月18日

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

最新《生成式对抗网络GAN逆转》综述论文，22页pdf

专知会员服务

40+阅读 · 2021年1月19日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【SIGGRAPH 2020】人像阴影处理，Portrait Shadow Manipulation

专知会员服务

29+阅读 · 2020年5月19日

CVPR 2022 | Adobe把GAN搞成了缝合怪！凭空P出一张1024分辨率全身人像

CVer

0+阅读 · 2022年3月27日

Adobe把GAN搞成了缝合怪，凭空P出一张1024分辨率全身人像 | CVPR 2022

量子位

1+阅读 · 2022年3月22日

注意力机制YYDS，AI编辑人脸终于告别P一处而毁全图

量子位

0+阅读 · 2022年2月16日

“众所周知，视频不能P”，GAN：是吗？

量子位

0+阅读 · 2022年1月25日

英伟达把P图软件GAN了

THU数据派

0+阅读 · 2021年12月6日

第一个GAN驱动的图像编辑框架！多伦多大学华人博士提出EditGAN，最注重细节的GAN模型

新智元

0+阅读 · 2021年11月22日

一张图像百般变化，英伟达用GAN实现高精度细节P图

机器之心

0+阅读 · 2021年11月21日

用GAN也可以P图，效果还不输PS | 英伟达出品

量子位

0+阅读 · 2021年11月12日

清华计图开源：智能P图神器DeepFaceEditing

机器之心

0+阅读 · 2021年5月6日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

面向互联网图像视频的鲁棒人脸分析与识别技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向识别的低质量人脸特征超分辨率重建技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

非约束环境下人脸多属性分析的理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

无控制条件下上下文感知和遮挡鲁棒的人脸对齐研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于语义分析的三维模型表面属性交互式编辑技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于面部结构特征先验信息的人脸特征点深度值估计方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于流形理论和稀疏表示的低质量图像人脸识别算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

数据驱动的彩色图像颜色空间建模与去噪

国家自然科学基金

1+阅读 · 2012年12月31日

基于计算机几何建模的人脸重建技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于图像内容特征分析的唯载密隐藏信息检测技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

Unsupervised Ranking and Aggregation of Label Descriptions for Zero-Shot Classifiers

Arxiv

0+阅读 · 2022年4月20日

Dual-Domain Image Synthesis using Segmentation-Guided GAN

Arxiv

0+阅读 · 2022年4月19日

Sketch guided and progressive growing GAN for realistic and editable ultrasound image synthesis

Arxiv

0+阅读 · 2022年4月19日

StyleT2F: Generating Human Faces from Textual Description Using StyleGAN2

Arxiv

0+阅读 · 2022年4月17日

Arxiv

0+阅读 · 2022年4月15日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding

Arxiv

16+阅读 · 2017年11月20日

VIP会员