视频人脸识别进展综述

2021 年 3 月 12 日 专知

摘要：人脸识别是生物特征识别领域的一项关键技术,长期以来得到研究者的广泛关注。视频人脸识别任务特指从一段视频中提取出人脸的关键信息,从而完成身份识别。相较于基于图像的人脸识别任务来说,视频数据中的人脸变化模式更为多样且视频帧之间存在较大差异,如何从冗长而复杂的视频中抽取到人脸的关键特征成为当前的研究重点。以视频人脸识别技术为研究对象,首先介绍了该技术的研究价值和存在的挑战;接着对当前研究工作的发展脉络进行了系统的梳理,依据建模方式将传统基于图像集合建模的方法分为线性子空间建模、仿射子空间建模、非线性流形建模、统计建模四大类,同时对深度学习背景下基于图像融合的方法进行了介绍;另外对现有视频人脸识别数据集进行分类整理并简要介绍了常用的评价指标;最后分别采用灰度特征和深度特征在YTC数据集及IJB-A数据集上对代表性工作进行评测。实验结果表明:神经网络可以从大规模数据中提取到鲁棒的视频帧特征,从而带来识别性能的大幅提升,而有效的视频数据建模能够挖掘出人脸潜在的变化模式,从视频序列包含的大量样本中找到更具判别力的关键信息,排除噪声样本的干扰,因此基于视频的人脸识别具有广泛的通用性和实用价值。

http://www.jsjkx.com/CN/10.11896/jsjkx.210100210

人脸识别是计算机视觉及模式识别领域长期研究的课题之一.传统的人脸识别主要通过分析两张或多张包含人脸的图像,并对图像进行脸部关键特征提取来完成身份识别.静态图像的采集过程中人脸往往是受控的,但在很多实际应用场景下,需要对非受限拍摄环境下采集的视频进行人脸识别, 如公安部门通过分析监控视频进行嫌疑人排查、互联网公司对海量视频数据进行以人为核心的分析与管理.因此,视频人脸识别存在其自身特有的技术难点:１)人脸表观的变化更加剧烈.除了视频拍摄设备以及摆拍距离较远带来的光照条件不佳、低分辨率、抖动模糊等多变性外,还包括拍摄对象自身不受控带来的头部姿态多变性、面部表情多变性以及大面积遮挡的情况.２)需要对视频数据进行整体建模.视频数据可以看作由多帧图像构成的集合,进行视频人脸识别时,一一比对两段视频中的所有帧的效率是非常低的,因此往往需要对视频进行整体建模.然而视频数据长短不一,且图像帧之间存在较大的差异性,如何从冗长而复杂的视频中提取到人脸关键信息成为另一大挑战.与此同时,视频数据也具备其天然的优势:视频数据的多样性提供了更为丰富的人脸信息, 研究者可以通过构造更加复杂的人脸表示来提升人脸识别的性能[１];另外,视频数据同时具有空间和时间两个维度,可以提供静态图像不具备的人脸动态信息,从而为人脸识别带来更多可能性.

完整的视频人脸识别流程主要包括人脸视频数据的采集、人脸检测、人脸跟踪、人脸特征提取及视频建模等多个环节,其整体框架图如图１所示.在完成视频数据的收集之后, 首先对视频进行人脸检测及跟踪[２],并对人脸区域进行裁剪, 得到一系列人脸区域图像;人脸特征提取步骤是指对视频中的每一帧图像采用 PCA 降维[３]、LBP [４]、SIFT [５]、HoG [６]等手工设计的浅层特征或深度卷积神经网络提取得到人脸关键信息的特征表达;而视频建模步骤则是利用所有图像特征进行建模得到统一的人脸特征表示,用于后续的判别分析;最后, 识别任务可以分为１∶１的人脸验证(Verification)任务及１∶N 的人脸辨识(Identification)任务.人脸验证任务主要面向刷脸进站、刷脸支付等身份核实场景;而人脸辨识主要面向法医鉴定、门禁系统等身份认证场景.系统中包含一组已知身份的人脸库(Gallery),在测试阶段会将新的人脸数据(Probe)与人脸库进行比对,以此来确认身份.如果测试数据身份在人脸库中出现过,则称为闭集人脸识别,否则称为开集人脸识别.

近年来,很多研究者采用不同的视频建模方式,充分利用视频数据的优势尝试应对视频人脸识别任务中的各项挑战. 本文以视频人脸识别技术为研究对象,对该领域的整体发展脉络进行梳理,并对现有研究方法及常用数据集进行全面而系统的分类介绍,最后通过对比实验分析各方法的独特性,总结得出未来的研究方向.

专知便捷查看