人脸检测是许多人脸识别和人脸分析系统的关键第一步。早期的人脸检测方法主要是基于从局部图像区域手工提取特征的基础上构建分类器,如Haar级联和梯度定向直方图。然而,这些方法还不够强大,无法对来自不受控制环境的图像实现高精度。
随着2012年深度神经网络在图像分类方面的突破性工作,人脸检测的范式发生了巨大的转变。受计算机视觉中深度学习的快速发展的启发,在过去的几年里,许多基于深度学习的框架被提出用于人脸检测,在准确性方面取得了显著的提高。
在这项工作中,我们提供了一些最具代表性的基于深度学习的人脸检测方法的详细概述,将它们分成几个主要类别,并展示了它们的核心架构设计和流行基准上的精度。我们还描述了一些最流行的人脸检测数据集。最后,我们讨论了当前该领域存在的一些问题,并对未来的研究提出了建议。
引言
人脸检测是人脸识别、人脸属性分类、人脸编辑、人脸跟踪等任务的重要早期步骤,其性能直接影响到[2]、[3]等任务的有效性。尽管在过去的几十年里,人脸检测已经取得了巨大的进步,但在野外准确和高效的人脸检测仍然是一个公开的挑战。这是由于姿态变化、面部表情、比例、照明、图像失真、脸部遮挡等因素造成的。与一般的目标检测不同,人脸检测的特征是在纵横比上的变化较小,但在尺度上的变化大得多(从几个像素到几千像素)。
早期的人脸检测工作主要基于经典方法,即从图像(或图像上的滑动窗口)中提取手工制作的特征,并将其输入分类器(或分类器集合)来检测可能的人脸区域。两个标志性的经典人脸检测工作是Haar级联分类器[4]和直方图的方向梯度(HOG)后的SVM[5]。这些工作代表了当时技术水平的巨大进步。然而,对于图1所示的具有多种变体因子的具有挑战性的图像,人脸检测精度仍然有限。
随着深度学习在计算机视觉领域的巨大成功,研究人员在过去的6-7年中提出了几种有前景的模型体系结构。受级联分类器思想的启发,许多早期基于深度学习的模型都是基于级联-CNN架构的。但随着几种用于通用目标检测的新架构的引入,许多基于深度学习的最新模型已经转向单次检测、基于R-CNN的架构、特征金字塔网络(FPN)模型等。到2000年左右,人脸检测研究的主要研究包括Yang等人的[7]、Rowley等人的s[8]、Hjelmas和Low[˚9]。Zhang调研了未来十年人脸检测的进展,大约到2010年[10]。Zafeiriou等人[11]调研了大约在未来五年的人脸检测研究,接近深度学习浪潮的开端,大约在2015年。他们的结论之一是,“即使允许出现相对较多的误报(约1000个),仍有大约15-20%的面孔没有被检测出来。”“我们的调研从[11]结束的地方开始,涵盖了从深度学习浪潮开始到当前时间,人脸检测的快速进展。
本文综述了基于深度学习的人脸检测的最新文献,包括50多种检测方法。它提供了对这些方法的不同方面的见解的全面调研,包括训练数据、网络架构的选择、损失功能、训练策略和他们的主要贡献。根据他们对人脸检测的主要技术贡献,我们将这些工作分为以下几类:
1) 基于Cascade-CNN的模型
2) 基于R-CNN和Faster-RCNN的模型
3) Single Shot 模型
4) 基于特征金字塔网络的模型
5) 其他模型
本次综述的其余部分组织如下: 第2节概述了流行的深度神经网络(DNN)架构,它是许多现代人脸检测算法的基础。第3节回顾了最重要的最先进的基于深度学习的人脸检测模型,以及它们的主要技术贡献。第4节总结了最流行的人脸检测基准,它们的大小和其他特征。第5节列出了评估基于深度学习的人脸检测模型的流行指标,并列出了模型在这些数据集上的性能。第6节讨论了基于深度学习的人脸检测的主要挑战和机遇。第7节给出了我们的结论。
2015年至2021年最流行的基于深度学习的人脸检测模型。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“FD17” 就可以获取《最新「深度学习人脸检测」综述论文,17页pdf概述50种人脸检测SOTA方法》专知下载链接