浅谈FRVT人脸识别测评

2018 年 7 月 9 日 人工智能前沿讲习班


最近,相关科技媒体报道了最新一期的NIST人脸识别测评比赛,在仔细阅读了FRVT官方发布文档之后,发现国内有些媒体报道不是特别准确,因此在这篇报道中,结合自己专业知识探讨一下FRVT测评结果。

人脸识别的测试集很多,大致发展脉络是从受控环境向无约束环境发展。早期的AR,YaleB等都是标准的正面人脸照片,随着识别技术的推进,识别测评集也不断推陈出新,大家熟知的LFWIJBMegaFace等都是一些无约束识别测试集合。这些无约束数据集合的一大显著特性是从互联网上下载并且整理的一些图片,很难反应实际应用中的一些需求。比如,有些算法宣称在LFW上达到了99.8%的识别率,但在实际的监控环境中表现非常差。当然,这并非否定这些测试集作用,早期时候确实推动了人脸识别技术发展,但是当精度达到一定水准之后,再简单的刷性能就没有太大意义。正因为如此,NIST又重启了多年的人脸识别竞赛FRVT

FRVT简介

NIST是美国国家标准技术局简称(National Institute of Standards and Technology),其隶属于美国商务部,从事一些应用基础研究及测量技术和测试方法等,提供标准参考数据及有关服务。NIST经常会组织一些专业人脸识别测评,其主要目的是测试人脸识别算法水准。这些测评由于是相对独立的第三方测试,受商业因素影响较小,因此相对比较公平公正。值得一提的是FRVT测评不会公布人脸的训练集,很难通过拟合训练集方式参加比赛。参赛者提供算法SDK之后,FRVT直接测试这些算法性能。

值得注意的是,FRVT人脸识别测试集往往有多种测试集合组成(比如受控环境下人脸签证照片,无约束环境下人脸自拍照片等),FRVT在每次结果报告中都没有给出综合性排序,只给出了特定阈值下单项测试集合排名。从人脸识别角度来看,没有一种人脸识别算法可以做到在任何环境下表现都很优秀,因此通过FRVT结果简单认为某某公司人脸识别水平第一不严谨。FRVT测评在之前一共举办过五次(FRVT 2000 FRVT 2002FRVT 2006,  FRVT 2010, FRVT 2013)。早期的人脸识别测评需要在固定的截止日期之前提交自己的算法,以正面人脸照片为主(有一定的姿态、光照等变化),其主要特点是数据量较大。

20172月份开始,NIST开始组织新的人脸识别测评,不同于以往的测评,这次测评没有截止日期,参加测评者可以根据自身进度提交算法,NIST会对算法进行测试,并且每隔一段时间出一次报告。在解读这份报告之前,我们先介绍下大致评价指标:FNMR(false non-match rate)FMR(false match rate)FNMRFMRFRVT报告中有严格公式说明,在这里用通俗易懂的语言再解释一下。FNMR(拒识率,就是把应该相互匹配成功人脸当成不匹配的人脸),FMR(误识率,就是把不应该匹配成功人脸当成匹配成功人脸)。是不是很绕口?这是因为人脸识别分为类内比对(同一个人不同照片)和类间比对(不同人的照片)。

在实际系统中,拒绝识别(FNMR)和错误识别(FMR)代价往往不太一样,比如金融领域的人脸识别,误识会是一个很严重的事故(想像一下,如果ATM依靠刷脸取款,无需其他信息验证,如果有人和你长的非常像,则很有可能会进入你的账户取款),相比之下,拒识结果相对可以接受(还是ATM刷脸取款,如果完全依靠刷脸取款,本人去ATM机刷脸,ATM无法正确识别你的身份,这时候你无法进入自己的账户,但是你的存款相对还是安全的,如果是紧急情况,甚至可以去银行柜台取款)。所以当给出一定的测试集时候,如果只统计识别率,并不能全面反映一个算法性能。通常反映算法性能可以调节算法阈值,得到不同拒识率和误识率,然后画出拒识和误识相关曲线(即ROC曲线)。FRVT测评同样也是用的这种方式,在测试集上画出了不同算法的ROC曲线。

FRVT2018共有六个数据集,到目前为止测试算法64种,从测试精度、速度、以及存储、可靠性等对各个算法进行了测试,整个报告全文在(https://www.nist.gov/sites/default/files/documents/2018/06/21/frvt_report_2018_06_21.pdf),由于篇幅较大,在这里大致说明一下。FRVT所用测试数据集说明如下 

1. FRVT2018 测试集合

1. FRVT2018测试集样例

在报告全文画出了多个图标(参照正式报告https://www.nist.gov/sites/default/files/documents/2018/06/21/frvt_report_2018_06_21.pdf),其中,Table 1Table 2是参赛者提交算法的说明,包含了算法提交日期,算法包大小,最终比对特征模板大小及特征提取时间,比对运行时间等。Table 3Table 4是测试集上的一些排序,从表格中可以看出,其排序依据是在指定的给定阈值下,当FMR等于某一数值时候(一般比较低,防止错误识别情况),FNMR的数值。例如,对于VISA测试集,分别给出了当FMR等于10^-610^-4不同算法的FNMR数值。如果对不同算法ROC曲线感兴趣,可以进一步参考Figure 4Figure 12

FRVT Leaderboard 简介

下面我们再看下FRVT Leaderboard情况(https://www.nist.gov/programs-projects/face-recognition-vendor-test-frvt-ongoing)。

FRVT之所以给出这个leaderboard,其原因是FRVT测试较为复杂,六个测试集ROC曲线非专业人士很难看明白,因此根据ROC曲线上的一些关键点(例如,当FMR等于10^-4点)做了排序,把表现都较好的算法列在了Leaderboard上。假设我们评价不同人脸识别算法也是以这些关键点为依据,那么可以得出如下结论:

 1.    Leaderborad上最左边一列序号仅仅是依据在Visa数据集关键点排序(FMR等于10^-6数值点),至于MugshotWildChild exploitation 数据集则没有考虑,因此不能简单的看最左边一列序号评价一个算法好坏,甚至得出错误结论“NIST全球权威人脸识别算法测试结果公布,前五名中三名来自中国”。

2.   Ntechlab-004算法在VISAMugshotWild测试集上全面好过siat-002算法,无论采取哪种加权策略,仅从leaderboard上数据,都不能得出siat-002ntechlab-004综合性能排名高结论。

写了这么长的一段,可能有读者心中依然存有疑虑,从FRVT结果看到底哪家算法比较好?其实这又回到了开头的论述,没有一种人脸识别算法可以做到在任何环境下表现都很优秀(这也是有很多参赛者提交多个算法原因)。假设我们依然想根据FRVT测评结果做一个综合性排序,可以简单的采取平均策略,即根据参赛算法在不同测试集上表现,大致做一个平均,根据平均分数高低确定最终排名。采用简单平均策略之后(根据Leaderboard所列出数据,我们仅取在VisaMugshotWild都有参赛算法),重新排名如下:

 2  各种算法平均性能排序

从上述表格中,可以看出依图提供的yitu-001人脸识别算法性能不错,尤其是在VisaMugshot测试集上均处于前两名之内,但是其在Wild测试集表现稍微欠缺。俄罗斯NTechLab提供的ntechlab-004人脸识别算法在表中所列出的几种数据集上表现都处于前3名,因此其综合排名超越了依图的001人脸识别算法。其他算法比如siat-002vocord-004等也都表现不错。

值得注意的是这种平均策略并不能全面评测一个算法性能,比如旷视科技提供的megvii-001人脸识别算法在Visa数据集上表现不错,但是其在MugshotWild数据集性能一般,因此整体排名靠后。但是这并不能说明megvii-001人脸识别算法性能差, megvii-001人脸识别算法可能针对受控环境下人脸识别性能较好,而无约束环境下人脸识别性能相对不足。

总之,我们国家在人脸识别上进展确实很快,尤其是近几年发展速度超出了预期,包括在FRVT竞赛中取得了很好的成绩,但是仅仅只从FRVT Leaderboard数据看,很多媒体报道不符合事实,有些夸大意味。另外,从实际应用角度来看,人脸识别尤其是监控环境中人脸识别,还需要很长一段时间研究才能符合实际应用的需求。

 

作者简介


李琦,中科院自动化所博士,助理研究员,图形图像学会会员,图形图像学会视觉与大数据专委会委员。2007-2011年在中国石油大学获得学士学位,2011年-2016年在中科院自动化所模式识别国家重点实验室获得博士学位。一直从事计算机视觉、人脸预处理和识别方面的工作。参与的人脸识别系统成功应用于国有商业银行和地方铁路系统等。在国际主流期刊和会议(如IEEE Transactions on Information Forensics and Security, Pattern Recognition,NIPS等)发表过多篇文章,申请多项专利,现任《IEEE Transactions on Pattern Recognition and Machine Intelligence》,《International Journal of Automation and Computing》,《Pattern Recognition》等审稿人。



历史文章推荐:

 谭铁牛:人工智能的春天刚刚开始!

【AIDL专栏】梅涛:深度视觉理解(附PPT)

AI综述专栏 | 脑启发的视觉计算2017年度关键进展回顾(附PPT)

【AIDL专栏】鲁继文:面向视觉内容理解的深度度量学习

 AI综述专栏 | 11页长文综述国内近三年模式分类研究现状(完整版附PDF)

  AI综述专栏 | 朱松纯教授浅谈人工智能:现状、任务、构架与统一(附PPT

【AIDL专栏】熊辉:《易经》如何指导我们做人工智能

【AIDL专栏】罗杰波: Computer Vision ++: The Next Step Towards Big AI



登录查看更多
12

相关内容

测试集,在AI领域多指机器学习模型训练完成后,用于其测试的数据,以观测其性能以及泛化能力。
最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
最新《机器学习理论初探》概述
专知会员服务
44+阅读 · 2020年5月19日
【浙江大学】人脸反欺诈活体检测综述
专知会员服务
31+阅读 · 2020年4月15日
在警察领域高级人脸识别技术的一致性
计算机视觉战队
3+阅读 · 2019年5月15日
人脸识别研究取得进展
中科院之声
4+阅读 · 2019年3月26日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Arxiv
5+阅读 · 2019年2月28日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
在警察领域高级人脸识别技术的一致性
计算机视觉战队
3+阅读 · 2019年5月15日
人脸识别研究取得进展
中科院之声
4+阅读 · 2019年3月26日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
Top
微信扫码咨询专知VIP会员