SFFAI分享 | 曹杰：Rotating is Believing

2018 年 11 月 13 日 人工智能前沿讲习班

关注文章公众号

回复"曹杰"获取PDF资料

导读

自动化所智能感知与计算研究中心在生成对抗网络（GAN）基础上提出高保真度的姿态不变模型来克服人脸识别任务中最为经典的姿态不一致问题。该模型不仅在多个基准数据集的视觉效果和定量指标都优于目前已有的基于生成对抗网络的方法，而且将生成图像的分辨率在原有基础上提升了一倍。该论文已被神经信息处理系统大会(NIPS)收录。

作者简介

曹杰，中国科学院自动化研究所在读博士，本科毕业于华北电力大学。研究方向为基于对抗式生成网络的人脸识别、人脸生成

Introduction

在人脸识别领域，如何解决个体因姿态变化而产生的差异是一个经典的难题。在如今的大数据时代下，通过深度学习可以从百万级以至于更多的人脸数据中来学习到鲁棒性很强的人脸识别网络，但是对于个体的极端姿态仍然存在识别困难的问题。随着生成式对抗网络（Generative Adversarial Network， GAN）[2] 的兴起，“生成辅助识别”的思想在人脸识别领域得到了广泛地应用。利用GAN强大的图像生成能力，可以对输入的侧脸图像进行转正，这样一来，转正的图片就可以用预训练好的人脸识别网络做识别，而且该识别网络无需专门对人脸大姿态作出优化。

1.1 Background

生成模型（generative model）在机器学习的历史上一直占有举足轻重的地位。当我们拥有大量的数据，例如图像、语音、文本等，如果生成模型可以帮助我们模拟这些高维数据的分布，那么对很多应用将大有裨益。针对数据量缺乏的场景，生成模型则可以帮助生成数据，提高数据数量，从而利用半监督学习提升学习效率。如果有数据集S={x1，…xn}，建立一个关于这个类型数据的生成模型最直接的方法就是：假设这些数据的分布P{X}服从g(x;θ)，在观测数据上通过最大化似然函数得到θ的值，即最大似然法：

以图像生成模型举例。假设我们有一个图片生成模型（generator），它的目标是生成一张真实的图片。与此同时我们有一个图像判别模型（discriminator），它的目标是能够正确判别一张图片是生成出来的还是真实存在的。那么如果我们建立一种图片生成模型和判别模型之间的博弈：生成模型生成一些图片->判别模型学习区分生成的图片和真实图片->生成模型根据判别模型改进自己，生成新的图片->···· 一直持续这个场景直至生成模型与判别模型无法提高自己——即判别模型无法判断一张图片是生成出来的还是真实的而结束，此时生成模型就会成为一个完美的模型。

上述这种博弈式的训练过程，如果采用神经网络作为模型类型，则被称为生成式对抗网络（GAN）。用数学语言描述整个博弈过程的话，就是：假设我们的生成模型是g(z)，其中z是一个随机噪声，而g将这个随机噪声转化为数据类型x，仍拿图片问题举例，这里g的输出就是一张图片。D是一个判别模型，对任何输入x，D(x)的输出是0-1范围内的一个实数，用来判断这个图片是一个真实图片的概率是多大。令Pr和Pg分别代表真实图像的分布与生成图像的分布，我们判别模型的目标函数如下：

类似的生成模型的目标是让判别模型无法区分真实图片与生成图片，那么整个的优化目标函数如下：

对于这个最大最小化目标函数，求解的方法是分别对D和g进行交互迭代，固定g，优化D，一段时间后，固定D再优化g，直到过程收敛。

1.2 Related Works

美国密歇根州立大学的Xiaoming Liu研究团队在2016年提出DR-GAN [3]，首次将GAN模型与表达学习结合，并且应用于跨姿态人脸识别领域。随后该团队又提出FF-GAN[4]，把人脸的先验知识用3DMM人脸模型参数的形式融入到GAN网络中，得到了在非可控场景下更好的生成和识别效果。中国科学院自动化研究所赫然、孙哲南研究团队在2017年提出TP-GAN [5]，受到人类视觉认知系统的启发，建立了双通道模型，让生成的图像质量有了质的飞越。随后又提出CAPG-GAN [6]，用二维的人体姿态信息对网络进行指导，并且借助表达学习，可以生成任意姿态的人脸。国立新加坡大学的Shuicheng Yan研究团队提出了DA-GAN [7]，PIM [8]，3D-PIM [9] 等一系列人脸转正模型，对非可控场景下的人脸识别率的提高作出了很大的贡献。

Methods

2.1 Model Structure

在该论文中，作者分析总结了先前人脸转正工作中存在的一些限制，例如，过于依赖低维信息约束，不能很好地保持原图的语义信息，模型生成的图像的分辨率有限等。为了解决这些问题，作者提出了高保真度的姿态不变模型（High Fidelity Pose Invariant Model，HF-PIM）来克服上述问题。具体做法总结如下：1、引入了一种能反映三维人脸模型和二维的人脸图像之间点到点的关联稠密关联场，让提出的网络能够在二维图像的指导下学习到隐含的三维人脸信息。2、设计了一种全新的纹理扭曲（warping）过程，可以有效地把人脸纹理映射到图像域，同时有可以最大程度地保持输入的语义信息。3、提出了一种对抗残差字典学习过程，从而可以在不依赖三维数据的情况下更有效地学习人脸纹理特征。网络的结构图如下所示：

2.2 Experiments

实验表明，提出的方法不仅在定量和定性指标上明显地超过了已有方法，并且生成图像的分辨率在原有基础上提高了一倍。

上图是在CelebA数据库的HQ子集上的可视化结果，第一行为输入图像，第二行为通过HF-PIM模型进行人脸正面化后的结果。HF-PIM是首个支持生成256*256可视化结果的模型。

上图在IJBA数据库上的可视化结果，第一行为输入图像，第二行为通过HF-PIM模型进行人脸正面化后的结果。

在LFW（左图）数据库和IJB-A（右图）数据库上和已有方法的对比结果。ACC: 准确率。AUC：ROC曲线下面积。FAR：错误接受率。Rank-1：第一次命中识别率。

Multi-PIE数据库上在不同的视角下对第一次命中识别率的对比

Take Home Message

算法为王，数据为皇

抓住机遇，迎接挑战

Reference

[1] Cao, Jie, Yibo Hu, Hongwen Zhang, Ran He,and Zhenan Sun. "Learning a High Fidelity Pose Invariant Model forHigh-resolution Face Frontalization." In NIPS, 2018.

[2] Goodfellow, Ian, Jean Pouget-Abadie, MehdiMirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and YoshuaBengio. "Generative adversarial nets." In NIPS, 2014.

[3] Tran, Luan, Xi Yin, and Xiaoming Liu."Disentangled representation learning gan for pose-invariant facerecognition." In CVPR, 2017.

[4] Yin, Xi, Xiang Yu, Kihyuk Sohn, XiaomingLiu, and Manmohan Chandraker. "Towards large-pose face frontalization inthe wild." In ICCV, 2017.

[5] Huang, Rui, Shu Zhang, Tianyu Li, and RanHe. "Beyond face rotation: Global and local perception gan forphotorealistic and identity preserving frontal viewsynthesis." In ICCV, 2017.

[6] Hu, Yibo, Xiang Wu, Bing Yu, Ran He, andZhenan Sun. "Pose-guided photorealistic face rotation." In CVPR,2018.

[7] Zhao, Jian, Lin Xiong, Panasonic KarlekarJayashree, Jianshu Li, Fang Zhao, Zhecan Wang, Panasonic Sugiri Pranata,Panasonic Shengmei Shen, Shuicheng Yan, and Jiashi Feng. "Dual-agent gansfor photorealistic and identity preserving profile face synthesis." In NIPS,2017.

[8] Zhao, Jian, Yu Cheng, Yan Xu, Lin Xiong,Jianshu Li, Fang Zhao, Karlekar Jayashree et al. "Towards Pose InvariantFace Recognition in the Wild." In CVPR, 2018.

[9]Zhao, Jian, Lin Xiong, Yu Cheng, Yi Cheng, Jianshu Li, Li Zhou, Yan Xu et al."3D-Aided Deep Pose-Invariant Face Recognition." In IJCAI,2018。