https://ieeexplore.ieee.org/document/9427073/
摘要
在现实生活中,许多因素可能会影响人脸识别系统的识别性能,例如大姿势,不良光照,低分辨率,模糊和噪声等。为了应对这些挑战,之前的人脸识别方法通常先把低质量的人脸图像恢复成高质量人脸图像,然后进行人脸识别。然而,这些方法大多是阶段性的,并不是解决人脸识别的最优方案。在本文中,作者提出一种多退化因子的人脸复原模型(Multi-Degradation Face Restoration,MDFR),来一次性解决所有的这些影响因素。MDFR可以从给定的多姿态、多重低质量因素影响的人脸图像中复原其高质量的正面人脸图像。MDFR是一个设计良好的编码器-解码器网络结构。在模型的构建中,作者引入了姿态残差学习策略,以及一个基于3D的姿势归一化模块(3D-based Pose Normalization Module,PNM),该模块可以感知输入人脸姿态和正面人脸姿态之间的差异,以此差异来指导人脸的转正学习。实验表示,训练完成之后的MDFR可以通过一个单一化的网络,一次性地从多重低质量因素影响的侧面人脸图像中恢复其高清的正面人脸图像,并有效的提高人脸算法的识别率。
背景及简介
提出了一种多退化因子人脸复原模型(Multi-Degradation Face Restoration, MDFR),将给定的任意姿态和受多重低质量因子影响的人脸图像恢复为正面且高质量的图像;
在人脸转正过程中,使用了姿态残差学习策略,并且提出了一种基于3D的姿态归一化模块;
提出了一种有效的整合训练策略将人脸重建和转正任务融合到一个统一的网络中,该方法能够进一步提升输出的人脸质量和后续的人脸识别效果;
方法描述
(1)双代理生成器
双代理生成器包含一个人脸复原子网络(Face Restoration sub-Net,FRN)和一个人脸转正子网络(Face Frontalization sub-Net, FFN)。FRN网络的作用是将低质量人脸图像重建为高质量人脸图像,而FFN网络将FRN生成的侧脸图像进行转正。其中每个子网络均包含一个编码器和解码器,前者用来将输入映射到特征空间,而后者主要将编码后的特征重建为相应的目标人脸图像。两个子网络具有相同的网络结构,但是输入有所不同。FRN的编码器
图 2. 生成网络的网络结构
(2)姿态归一化模块
作者设计了一个姿态归一化模块(PNM)对姿态进行归一化。PNM提供了标准的、并且尺度统一的真实正面姿态来来引导人脸转正。基于3D形变模型(3D Morphable Model, 3DMM),二维人脸图像对应的三维顶点可以通过人脸正交基线性加权相加而得到:
通过尺度正交映射将三维人脸顶点映射到二维图像平面,二维侧脸人脸图像可以表示为:
其中,参数
在文章中,作者使用3D人脸转正方法2DAL[1]从一张给定的二维人脸图像中获取人脸密集坐标,最后选取18个常用的关键点来生成相应的高斯热力图(Gaussian Heatmaps)。
(3)双代理先验引导判别器
在人脸超分辨率领域使用的判别损失能够很好的提高重建人脸的真实度。因此,在本文中,作者在判别器中加入两种额外的先验信息:目标人脸的landmarks以及正脸的身份特征图,使得生成的人脸不仅能够获得目标姿态,还具有真实的身份信息。对应的判别器分别为PCD(Pose Conditioned Discriminator)以及ICD(Identity Conditioned Discriminator)。在实现过程中,作者将两种先验信息分别作用到输入判别器中引导人脸的生成,然后再输入到相应的判别器中进行判别损失的求解。PCD和ICD不仅可以区分真实人脸和生成的人脸,同时可以学习到真实人脸和生成人脸的姿态和身份差异。
(4)网络训练
网络的训练主要分为两个阶段:Separate Training和TI Training。
Separate Training:文章首先分别训练FRN和FFN两个子网络,两个训练过程分别简写为FRN-S和FFN-S。FRN-S训练过程中所用到的损失函数如下:
身份信息损失:
重建像素损失:
总的损失:
FFN-S训练过程中所用到的损失函数如下:
转正损失:
条件对抗损失:
总的损失:
Task-Integrated (TI) training:在FRN和FFN完成了相应的分开训练后,作者在预训练模型的基础上进行整合训练。在这个阶段,作者使用FFN模型的输出作为ground-truth来训练FRN。同时,使用PNM归一化后的真实转正面部landmarks来引导FFN中人脸的转正。为了生成更好的人脸效果,在这一阶段作者还使用了特征对齐损失(Feature Alignment Loss, FA),具体的定义如下:
整体的训练损失函数为:
实验结果
图 3. 消融实验在Multi-PIE数据库上的对比结果
表 1. 在Multi-PIE数据库上的人脸识别对比结果(%)。
表2列举了FFN-S和FRN-TI同其他方法在Multi-PIE数据集上人脸识别率的比较。FFN-S在所有的姿态中获得了最好的效果,其次是FFN-TI。当姿态角度在
图 4. 不同方法在多重低质量因素影响下的人脸复原效果
作者在多重低质量因素影响的人脸图像上进行相应的验证,包括低分辨率、不良光照、噪声以及模糊。实验表明,文章提到的方法不仅可以充分应对多种低质量因素的影响,而且还可以生成相应的高质量人脸图像。为了验证方法的先进性,作者和其它方法在多重低质量因素影响下的人脸图像上进行了复原效果的对比。图4展示了所提出的方法和ESRGAN[2], SI[3],FFDNet[4], PD-Denoising[5], Deblur-GAN[6]的对比结果。可以看出不同于其他方法只能处理单一的任务,文中所提出的方法既可以对人脸进行转正也可以进行高质量复原,且取得了最好的视觉效果。
参考文献
[1] Tu X, Zhao J, Xie M, et al. 3d face reconstruction from a single image assisted by 2d face images in the wild[J]. IEEE Transactions on Multimedia, 2020, 23: 1160-1172.
[6] O. Kupyn, V. Budzan, M. Mykhailych, D. Mishkin, J. Matas, Deblurgan: Blind motion deblurring using conditional adversarial networks, in: CVPR, 2018, pp. 8183–8192.