◆ CASIA | 解锁更多智能之美 ◆
【今日紫冬】自动化所朱翔昱博士和雷震博士针对真实场景下的人证核验问题,提出了基于深度学习的大规模双样本学习方法,解决了双样本数据带来的类内变化不足问题和海量样本数计算压力大的问题。
近些年得益于网络架构、训练策略以及人脸数据的发展,人脸识别技术取得了巨大的提升,越来越多的被推广到安防领域,延伸出考勤机、门禁机等多种产品,产品系列达20多种类型,可以全面覆盖煤矿、楼宇、银行、军队、社会福利保障、电子商务及安全防务等领域,人脸识别的全面应用时代已经到来。
然而,现有方法主要关注自然环境下的人脸识别,其训练数据大都从网络上收集而来,一般只包含中等量级的人数(约10万人),但每类平均样本数很多(多于20个)。然而,实际应用中的人脸识别系统通常只能获取2张图像,一张证件照,一张现场照。同时,系统需要面对的人脸个体数量可达到上百万甚至是千万级。因此,实际中人脸数据库通常具有海量类别,但每类只有2个样本,我们称之为大规模双样本问题。
现有方法在训练这种数据时会遇到巨大的挑战,例如类内变化不足使得训练难以收敛以及海量样本数对计算设备的极端要求。为此,自动化所针对真实场景下的人证核验问题,提出了基于深度学习的大规模双样本学习方法,解决了双样本数据带来的类内变化不足问题和海量样本数计算压力大的问题。
图1. 现实场景中人脸识别图像示例
目前,深度学习在人脸识别界具有统治地位,基于分类的训练方法是主流,其将每个人当作独立的类别,并使用softmax进行分类训练。近两年SphereFace [1],CosFace [2]以及InsightFace[3] 进一步引入了边界裕量(margin)来提高识别网络的可扩展性,在公开测试集上取得了领先性能。然而,softmax的计算消耗与类别数直接相关。在实际应用中,百万类甚至千万类的分类会对训练平台产生极大压力,普通训练平台(如8卡TITANX)甚至无法训练,给主流方法的应用带来了困难。
大规模双样本学习方法
我们提出的大规模双样本学习方法包括两个方面,一是提出了一种分类-验证-分类(CVC)的训练策略来逐步提高实际场景中的性能,二是针对大规模分类问题提出了DP-softmax使得深度学习在超大规模类别的分类上具有可扩展性。
在分类-验证-分类(CVC)训练策略中,我们将整个训练过程分为三个阶段,如图2所示。第一个阶段为Pre-learning (Classification),我们首先在网图人脸数据库上训练一个深度神经网络模型,以得到一个较好的初始人脸识别性能。第二阶段为Transfer Learning (Verification),使用基于度量学习的人脸验证方法如triplet loss在大规模双样本数据上进行微调,将人脸知识从自然环境迁移到人证场景下。第三阶段为Fine-grained Learning (Classification),我们构建了一个特殊的分类层DP-softmax对百万级类别进行分类,最终达到人证场景下的最优性能。
图2. 分类-验证-分类训练策略
DP-softmax极大降低了大规模分类的计算需求,如图3所示,我们首先通过CVC策略中第二阶段的模型对训练数据抽取特征并构建每个类别的类别模板(prototype),生成所有类别的类别模板库。在训练过程中,针对当前mini-batch中的样本选择与他们最相似的少量类别模板构建临时分类层来完成本次的分类训练。整个过程可以在不影响训练效果的前提下,极大降低大规模分类的计算需求。
图3. Dominant Prototype Softmax
我们对提出的方法进行了充分的实验,表明在IvS场景下,本方法相比现有方法有了明显提升,如下表所示。
自动化所生物识别与安全技术研究中心(CBSR)在人脸识别领域一直走在世界前列。中心发表过百余篇人脸识别相关国际论文,计算机视觉、人脸识别著作10部,在计算机视觉和人脸识别核心技术竞赛中10多次夺冠。CBSR设计了世界上第一个大型边检通关系统,在深圳-香港边检运行至今;设计实施了世界上第一个人脸识别人证票核验系统,在2008北京奥运实施;代表中国国家体制定的唯一项人脸识别ISO国际标准,制定了人脸识别中国国家标准、行业标准10多项;发布了人脸识别领域研究使用最广泛的数据库之一——CASIA-Webface人脸数据库。顶级刊物《science》介绍了该团队的成果,以此说明中国国力和创新能力迅速提升,在上述领域做到国际领先,并且获得了国际同行的好评。
原文信息:
Zhu X, Liu H, Lei Z, et al. Large-Scale Bisample Learning on ID Versus Spot Face Recognition[J]. International Journal of Computer Vision, 2019: 1-17.
参考文献:
[1] Liu W, Wen Y, Yu Z, et al. Sphereface: Deep hypersphere embedding for face recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 212-220.
[2] Wang H, Wang Y, Zhou Z, et al. Cosface: Large margin cosine loss for deep face recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 5265-5274.
[3] Deng J, Guo J, Xue N, et al. Arcface: Additive angular margin loss for deep face recognition[J]. arXiv preprint arXiv:1801.07698, 2018.后台回复 0307 下载原文
- END -
更多精彩内容,欢迎关注
中科院自动化所官方网站:
http://www.ia.ac.cn
欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。
来源:CBSR
排版:松栩栩