SFFAI分享 | 曹杰:Rotating is Believing

2018 年 11 月 13 日 人工智能前沿讲习班

关注文章公众号

回复"曹杰"获取PDF资料


导读


自动化所智能感知与计算研究中心在生成对抗网络(GAN)基础上提出高保真度的姿态不变模型来克服人脸识别任务中最为经典的姿态不一致问题。该模型不仅在多个基准数据集的视觉效果和定量指标都优于目前已有的基于生成对抗网络的方法,而且将生成图像的分辨率在原有基础上提升了一倍。该论文已被神经信息处理系统大会(NIPS)收录。


作者简介


曹杰,中国科学院自动化研究所在读博士,本科毕业于华北电力大学。研究方向为基于对抗式生成网络的人脸识别、人脸生成


Introduction


在人脸识别领域,如何解决个体因姿态变化而产生的差异是一个经典的难题。在如今的大数据时代下,通过深度学习可以从百万级以至于更多的人脸数据中来学习到鲁棒性很强的人脸识别网络,但是对于个体的极端姿态仍然存在识别困难的问题。随着生成式对抗网络(Generative Adversarial Network, GAN)[2] 的兴起,“生成辅助识别”的思想在人脸识别领域得到了广泛地应用。利用GAN强大的图像生成能力,可以对输入的侧脸图像进行转正,这样一来,转正的图片就可以用预训练好的人脸识别网络做识别,而且该识别网络无需专门对人脸大姿态作出优化。

1.1 Background

生成模型(generative model)在机器学习的历史上一直占有举足轻重的地位。当我们拥有大量的数据,例如图像、语音、文本等,如果生成模型可以帮助我们模拟这些高维数据的分布,那么对很多应用将大有裨益。针对数据量缺乏的场景,生成模型则可以帮助生成数据,提高数据数量,从而利用半监督学习提升学习效率。如果有数据集S={x1,…xn},建立一个关于这个类型数据的生成模型最直接的方法就是:假设这些数据的分布P{X}服从g(x;θ),在观测数据上通过最大化似然函数得到θ的值,即最大似然法:

以图像生成模型举例。假设我们有一个图片生成模型(generator),它的目标是生成一张真实的图片。与此同时我们有一个图像判别模型(discriminator),它的目标是能够正确判别一张图片是生成出来的还是真实存在的。那么如果我们建立一种图片生成模型和判别模型之间的博弈:生成模型生成一些图片->判别模型学习区分生成的图片和真实图片->生成模型根据判别模型改进自己,生成新的图片->···· 一直持续这个场景直至生成模型与判别模型无法提高自己——即判别模型无法判断一张图片是生成出来的还是真实的而结束,此时生成模型就会成为一个完美的模型。

上述这种博弈式的训练过程,如果采用神经网络作为模型类型,则被称为生成式对抗网络(GAN)。用数学语言描述整个博弈过程的话,就是:假设我们的生成模型是g(z),其中z是一个随机噪声,而g将这个随机噪声转化为数据类型x,仍拿图片问题举例,这里g的输出就是一张图片。D是一个判别模型,对任何输入x,D(x)的输出是0-1范围内的一个实数,用来判断这个图片是一个真实图片的概率是多大。令Pr和Pg分别代表真实图像的分布与生成图像的分布,我们判别模型的目标函数如下:

类似的生成模型的目标是让判别模型无法区分真实图片与生成图片,那么整个的优化目标函数如下:

对于这个最大最小化目标函数,求解的方法是分别对D和g进行交互迭代,固定g,优化D,一段时间后,固定D再优化g,直到过程收敛。

1.2 Related Works

美国密歇根州立大学的Xiaoming Liu研究团队在2016年提出DR-GAN [3],首次将GAN模型与表达学习结合,并且应用于跨姿态人脸识别领域。随后该团队又提出FF-GAN[4],把人脸的先验知识用3DMM人脸模型参数的形式融入到GAN网络中,得到了在非可控场景下更好的生成和识别效果。中国科学院自动化研究所赫然、孙哲南研究团队在2017年提出TP-GAN [5],受到人类视觉认知系统的启发,建立了双通道模型,让生成的图像质量有了质的飞越。随后又提出CAPG-GAN [6],用二维的人体姿态信息对网络进行指导,并且借助表达学习,可以生成任意姿态的人脸。国立新加坡大学的Shuicheng Yan研究团队提出了DA-GAN [7],PIM [8],3D-PIM [9] 等一系列人脸转正模型,对非可控场景下的人脸识别率的提高作出了很大的贡献。

Methods


2.1 Model Structure

在该论文中,作者分析总结了先前人脸转正工作中存在的一些限制,例如,过于依赖低维信息约束,不能很好地保持原图的语义信息,模型生成的图像的分辨率有限等。为了解决这些问题,作者提出了高保真度的姿态不变模型(High Fidelity Pose Invariant Model,HF-PIM)来克服上述问题。具体做法总结如下:1、引入了一种能反映三维人脸模型和二维的人脸图像之间点到点的关联稠密关联场,让提出的网络能够在二维图像的指导下学习到隐含的三维人脸信息。2、设计了一种全新的纹理扭曲(warping)过程,可以有效地把人脸纹理映射到图像域,同时有可以最大程度地保持输入的语义信息。3、提出了一种对抗残差字典学习过程,从而可以在不依赖三维数据的情况下更有效地学习人脸纹理特征。网络的结构图如下所示:

2.2 Experiments

实验表明,提出的方法不仅在定量和定性指标上明显地超过了已有方法,并且生成图像的分辨率在原有基础上提高了一倍。 

上图是在CelebA数据库的HQ子集上的可视化结果,第一行为输入图像,第二行为通过HF-PIM模型进行人脸正面化后的结果。HF-PIM是首个支持生成256*256可视化结果的模型。 

上图在IJBA数据库上的可视化结果,第一行为输入图像,第二行为通过HF-PIM模型进行人脸正面化后的结果。 

在LFW(左图)数据库和IJB-A(右图)数据库上和已有方法的对比结果。ACC: 准确率。AUC:ROC曲线下面积。FAR:错误接受率。Rank-1:第一次命中识别率。

Multi-PIE数据库上在不同的视角下对第一次命中识别率的对比 

Take Home Message



算法为王,数据为皇

抓住机遇,迎接挑战


Reference



[1] Cao, Jie, Yibo Hu, Hongwen Zhang, Ran He,and Zhenan Sun. "Learning a High Fidelity Pose Invariant Model forHigh-resolution Face Frontalization." In NIPS, 2018.

[2] Goodfellow, Ian, Jean Pouget-Abadie, MehdiMirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and YoshuaBengio. "Generative adversarial nets." In NIPS, 2014.

[3] Tran, Luan, Xi Yin, and Xiaoming Liu."Disentangled representation learning gan for pose-invariant facerecognition." In CVPR, 2017.

[4] Yin, Xi, Xiang Yu, Kihyuk Sohn, XiaomingLiu, and Manmohan Chandraker. "Towards large-pose face frontalization inthe wild." In ICCV, 2017.

[5] Huang, Rui, Shu Zhang, Tianyu Li, and RanHe. "Beyond face rotation: Global and local perception gan forphotorealistic and identity preserving frontal viewsynthesis." In ICCV, 2017.

[6] Hu, Yibo, Xiang Wu, Bing Yu, Ran He, andZhenan Sun. "Pose-guided photorealistic face rotation." In CVPR,2018.

[7] Zhao, Jian, Lin Xiong, Panasonic KarlekarJayashree, Jianshu Li, Fang Zhao, Zhecan Wang, Panasonic Sugiri Pranata,Panasonic Shengmei Shen, Shuicheng Yan, and Jiashi Feng. "Dual-agent gansfor photorealistic and identity preserving profile face synthesis." In NIPS,2017.

[8] Zhao, Jian, Yu Cheng, Yan Xu, Lin Xiong,Jianshu Li, Fang Zhao, Karlekar Jayashree et al. "Towards Pose InvariantFace Recognition in the Wild." In CVPR, 2018.

[9]Zhao, Jian, Lin Xiong, Yu Cheng, Yi Cheng, Jianshu Li, Li Zhou, Yan Xu et al."3D-Aided Deep Pose-Invariant Face Recognition." In IJCAI,2018。


SFFAI讲者招募


为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。

SFFAI目前主要关注机器学习、计算机视觉、自然语言处理等各个人工智能垂直领域及交叉领域的前沿进展,将对线下讨论的内容进行线上传播,使后来者少踩坑,也为讲者塑造个人影响力。

SFFAI还将构建人工智能领域的知识树(AI Knowledge Tree),通过汇总各位参与者贡献的领域知识,沉淀线下分享的前沿精华,使AI Knowledge Tree枝繁叶茂,为人工智能社区做出贡献。

这项意义非凡的社区工作正在稳步向前,衷心期待和感谢您的支持与奉献!


有意加入者请与我们联系:wangxl@mustedu.cn


历史文章推荐:

SFFAI 分享 | 王克欣 : 详解记忆增强神经网络

SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展

SFFAI 分享 | 李宏扬 :二阶信息在图像分类中的应用

AI前沿学生论坛 | 朱时超:图神经网络模型及应用进展【附视频+PPT下载】
AI综述专栏|多模态学习研究进展综述
AI综述专栏|神经科学启发的人工智能
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
新任务引介 | Embodied Question Answering
AI综述专栏 | “博彩众长,自成一家”的神经机器翻译


登录查看更多
3

相关内容

判别模型,也称为条件模型或反向模型,是一类用于分类或回归的监督机器学习。这些方法通过从观测数据中推断知识来区分决策边界。这与生成模型或正向模型的想法不同,区别模型对底层数据分布的假设更少,而更依赖数据质量。
基于深度学习的多标签生成研究进展
专知会员服务
141+阅读 · 2020年4月25日
基于深度神经网络的少样本学习综述
专知会员服务
169+阅读 · 2020年4月22日
专知会员服务
87+阅读 · 2020年1月20日
Uber AI NeurIPS 2019《元学习meta-learning》教程,附92页PPT下载
专知会员服务
112+阅读 · 2019年12月13日
【CCL 2019】ATT-第19期:生成对抗网络 (邱锡鹏)
专知会员服务
49+阅读 · 2019年11月12日
SFFAI分享 | 常建龙:基于关系的深度学习【附PPT与视频资料】
人工智能前沿讲习班
6+阅读 · 2019年7月1日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
SFFAI分享 | 杨朝晖:二值化网络
人工智能前沿讲习班
6+阅读 · 2018年11月22日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
如何应用TFGAN快速实践生成对抗网络?
AI前线
5+阅读 · 2018年5月30日
Video-to-Video Synthesis
Arxiv
9+阅读 · 2018年8月20日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
7+阅读 · 2018年1月21日
Arxiv
4+阅读 · 2017年11月4日
VIP会员
相关资讯
SFFAI分享 | 常建龙:基于关系的深度学习【附PPT与视频资料】
人工智能前沿讲习班
6+阅读 · 2019年7月1日
SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】
人工智能前沿讲习班
14+阅读 · 2019年6月16日
万字综述之生成对抗网络(GAN)
PaperWeekly
43+阅读 · 2019年3月19日
SFFAI分享 | 杨朝晖:二值化网络
人工智能前沿讲习班
6+阅读 · 2018年11月22日
生成对抗网络的研究进展与趋势
中国计算机学会
35+阅读 · 2018年11月14日
如何应用TFGAN快速实践生成对抗网络?
AI前线
5+阅读 · 2018年5月30日
Top
微信扫码咨询专知VIP会员