北大陈宝权组图灵班本科生：用于图像编辑的自条件生成对抗网络｜SIGGRAPH 2022

会员服务 ·

北大陈宝权组图灵班本科生：用于图像编辑的自条件生成对抗网络｜SIGGRAPH 2022

2022 年 7 月 11 日 新智元

新智元报道

来源：北京大学前沿计算研究中心

【新智元导读】本文是 SIGGRAPH 2022入选论文「Self-Conditioned Generative Adversarial Networks for Image Editing」的解读。

「Self-Conditioned Generative Adversarial Networks for Image Editing」由北京大学陈宝权课题组和特拉维夫大学合作，第一作者刘云蛰为北京大学图灵班2018级本科生。

论文地址：https://arxiv.org/abs/2202.04040

文章提出了一种提高生成对抗网络（GANs）在数据分布边缘的生成效果的方法。在此基础上，相关的编辑算法的效果也得到了改进。

实验证明，作者的方法成功提高了 StyleGAN 这一广泛认可的人脸生成模型在边缘侧的生成、编辑效果。

引言

生成对抗网络（GANs）已经在很多生成相关的任务中取得了卓越的成果。

近年来，许多研究人员深入挖掘 GAN 的隐空间性质，由此提出了大量的语义图像编辑方法。

然而，在传统的方法中，为了提高对数据分布主体部分的拟合效果，在数据集的分布边缘，GAN 的生成效果会显著下降。因此，以这样的 GAN 的隐空间为基础的编辑方法，在数据边缘的编辑效果较差。

例如，许多编辑算法都可以对 StyleGAN 生成的人脸的位姿进行一定程度的编辑，但当我们希望将原图片编辑到边缘位姿时，这些算法的表现就不够理想了。

图1. 人脸位姿编辑结果

上：InterFaceGAN，下：Ours

基于此问题，我们提出一种将预训练的 GAN 模型转换为自条件模型（self-conditioned model）的方法，其中条件标签来自于初始 GAN 的隐空间自身。

通过基于条件标签的重采样和对条件的显式监督训练，我们提高了边缘数据在原始数据集分布中的权重，迫使网络更加关注边缘数据，从而改进效果。

方法

图2. 训练流程图

我们的方法主要分为4步（以年龄编辑为例）：

1. 找到预训练的 StyleGAN 的隐空间中，表示年龄的隐向量方向。相关算法种类很多，包括弱监督的 [1]、zero-shot 的 [2] 等等。针对不同的语义编辑，我们采用了不同算法来得到这一隐向量。

2. 将数据集中的所有图像逆映射回隐空间 [3]，再将其投影到第1步中得到的隐向量方向上。根据投影长度得到每张图像的属性标签。

3. 在原始 GAN 的结构中加上条件输入，其值代表了年龄属性（数据标签来自第2步），从而这个新的网络结构可以显式控制生成图像的年龄值。

4. 根据第2步得到的标签值进行均匀采样得到新的数据集，从而提升了边缘数据的权重。例如，相比采样前，新数据集中将包含更大比重的老年人。然后开始训练。

在第1、2步中，[4] 提出，图像隐向量在特定隐方向的投影长度和标签真实值有着线性关系，且这一隐方向不拘泥于特定的隐空间。这意味着，我们不需要使用真实标签，只需利用预训练的 StyleGAN 即可近似得到与图像真实属性接近的属性标签。

同时，针对不同的属性，我们可以挑选最适合的隐方向提取算法，集众多编辑算法之长。例如，针对位姿这一全局属性，我们采用了方法 [1] 在 W 空间的隐方向；针对戴眼镜这一局部属性，我们采用了 [2] 方法提取的精细程度更高的 S 空间的隐方向。

图3. 增加条件输入后的网络结构

在第3步中，我们对网络结构的修改如上图所示，基本结构在 [5] 提出的多常量模型的基础上做了一定的修改。首先，相比于每次从多个常量中选择一个的多选器 MUX 结构，我们转而使用加性的软标签。

这赋予我们操纵属性值更大的自由度，避免了在多属性情况下指数级的属性值组合。其次，我们注意到许多属性的两个方向不具有对称性（如年龄）。因此，对于每种属性，我们在两个方向采用不同的常量，而不是仅用一个常量，通过其权值的正负号来表示两个相反的方向。

实验

我们在 FFHQ（人脸）和 AFHQ Cat 两个数据集上的实验结果如下：

定性分析中，我们的算法在边缘数据的编辑结果具有显著的提升。尤其在 AFHQ Cat 数据集的位姿属性编辑中，沿着之前的工作所得到的编辑方向和许多其他属性产生了较明显的耦合。而我们的方法很大程度上保持了猫脸的一致性。

图4. 其他编辑结果

此外，我们提出了一个定量分析编辑结果优劣程度的方法（以年龄为例）。首先，使用 GAN 随机生成大量的结果。接着，使用不同的方法，采用一定范围内的随机步长对这些结果进行编辑。

然后，使用预训练的年龄检测模型计算出每个编辑实例的真实编辑程度（如10年、20年）。最后，计算不同编辑程度下人脸 identity 的相似程度，其结果如下图所示：

图5. 相似度分析

这说明，我们的算法在大幅度的编辑时，仍能保持较好的效果。

论文链接：

https://arxiv.org/abs/2202.04040

参考文献：

[1] Shen, Yujun, et al. "Interpreting the latent space of gans for semantic face editing." CVPR 2020.

[2] Patashnik, Or, et al. "Styleclip: Text-driven manipulation of stylegan imagery." ICCV 2021.

[3] Tov, Omer, et al. "Designing an encoder for stylegan image manipulation." TOG 2021.

[4] Nitzan, Yotam, et al. "LARGE: Latent-Based Regression through GAN Semantics."

[5] Sendik, Omry, Dani Lischinski, and Daniel Cohen-Or. "Unsupervised k-modal styled content generation." TOG 2020.

登录查看更多

相关内容

边缘

关注 0

KDD 2022 | GraphMAE:自监督掩码图自编码器

专知会员服务

20+阅读 · 2022年7月14日

【NeurIPS 2021】基于潜在空间能量模型的可控和组分生成

专知会员服务

17+阅读 · 2021年10月23日

CVPR 2021 Oral | 室内动态场景中的相机重定位

专知会员服务

16+阅读 · 2021年4月12日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

【NeurIPS 2020 】生成式的基于动态图网络学习的三维部件拼装

专知会员服务

16+阅读 · 2020年10月18日

【ACM MM2020】对偶注意力GAN语义图像合成

专知会员服务

36+阅读 · 2020年9月2日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

CVPR 2020 | MetaFuse：用于人体姿态估计的预训练信息融合模型

专知会员服务

25+阅读 · 2020年4月2日

CVPR 2022最佳学生论文：单张图像估计物体在3D空间中的位姿估计

PaperWeekly

1+阅读 · 2022年7月4日

【论文导读】2022年论文导读第十期

CCF多媒体专委会

1+阅读 · 2022年5月17日

CVPR 2022｜处理速度仅用0.2秒！港科大&腾讯AI lab开源基于GAN反演的高保真图像编辑算法

极市平台

0+阅读 · 2022年3月24日

一张照片就能生成3D模型，GAN和自动编码器碰撞出奇迹，苏黎世联邦理工学院出品

量子位

0+阅读 · 2022年3月2日

AAAI 2022 Oral | 无需人工标注，清华、快手提出基于参考图像的单张生成图像质量评价方法

机器之心

2+阅读 · 2022年2月24日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

基于GAN的图像水印去除器，效果堪比PS高手

AI100

12+阅读 · 2019年6月25日

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

泡泡机器人SLAM

18+阅读 · 2019年4月30日

CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪

PaperWeekly

13+阅读 · 2019年1月22日

SRGAN论文笔记

统计学习与视觉计算组

109+阅读 · 2018年4月12日

GPU加速和风格感知的艺术图像和谐克隆

国家自然科学基金

4+阅读 · 2014年12月31日

基于非局部信息的图像恢复和图像质量评价研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于贝尔格式原始图像的超分辨率三维几何建模技术

国家自然科学基金

0+阅读 · 2012年12月31日

风格化人体运动合成新方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

叶片光合作用的三维数学建模

国家自然科学基金

1+阅读 · 2009年12月31日

基于密集图像/视频采样的三维重建技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

图像的薜定谔变换及应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

信道编码与物理层网络编码的联合编解码研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于小波变换的仿射不变形状表示算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于2D视频视觉关注度的3D重建方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Single-Stage Broad Multi-Instance Multi-Label Learning (BMIML) with Diverse Inter-Correlations and its application to medical image classification

Arxiv

0+阅读 · 2022年9月6日

Achieving Model Fairness in Vertical Federated Learning

Arxiv

0+阅读 · 2022年9月6日

Minimax Rates for Conditional Density Estimation via Empirical Entropy

Arxiv

0+阅读 · 2022年9月5日

Spatial motion planning with Pythagorean Hodograph curves

Arxiv

0+阅读 · 2022年9月4日

Shuffled total least squares

Arxiv

0+阅读 · 2022年9月2日

E2FIF: Push the limit of Binarized Deep Imagery Super-resolution using End-to-end Full-precision Information Flow

Arxiv

0+阅读 · 2022年9月2日

Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated Split Learning

Arxiv

0+阅读 · 2022年9月2日

Compositional GAN: Learning Conditional Image Composition

Arxiv

31+阅读 · 2018年7月19日

Pose-Normalized Image Generation for Person Re-identification

Arxiv

11+阅读 · 2018年1月18日

Demystifying MMD GANs

Arxiv

12+阅读 · 2018年1月12日

VIP会员