赛道介绍
参赛方案
针对本次口罩人脸识别比赛,团队提出的方法主要涉及训练数据、训练方法和测试增强三个方面。在训练数据方面,针对比赛只能使用指定的训练集,不得引入外部数据集和预训练模型等限制条件,参赛方案使用了大量的数据增强方法缓解训练集和测试集分布不一致的问题,如下图所示:
实践表明,大量数据增强对缩小训练和测试差异,提高模型的泛化能力非常关键。针对口罩人脸识别,使用了一种简单且高效的口罩增强方法。该方法将预先处理好的口罩图片直接贴在训练图片上,如下图所示:
需要注意的是,该口罩增强方法使用平均脸的关键点位置,并不需要根据输入人脸的关键点调节位置。这么做的好处是处理流程高效简单,不需要关键点检测模型,可以做到在训练时在线加入口罩增强。虽然不使用输入人脸的关键点损失了口罩和人脸的贴合度,不过实验表明,使用这种简单的口罩增强方法可以达到和基于关键点动态调节的口罩增强方法同等的识别效果。另外,通过实验发现,口罩模板数量并不关键,比赛规则中强调的 10 张口罩模板已经够用。
团队使用 iresnet100 作为特征提取器的骨干网络输出 512 维特征向量。实验验证,更大更深的模型并没有取得显著的收益。在训练方法方面,分为两个阶段。第一阶段使用 CosFace 进行训练,达到快速收敛。第二阶段使用 CosFace + DCQ 联合训练,进一步提升性能。如下表所示,第二阶段使用 DCQ 后,比赛结果从 0.688 显著地提升到 0.705,绝对提升了 1.7%。
DCQ(Dynamic Class Queue for Large Scale Face Recognition In the Wild) 是百度视觉技术部在人脸识别领域上的一项最新研究成果,并发表在计算机视觉顶会CVPR 2021 上,该工作目前已基于飞桨(PaddlePaddle)框架开源:https://github.com/bilylee/DCQ。目前业界主流的人脸识别训练方法是18年英国帝国理工大学提出的ARC Face,其是基于Softmax分类框架的一个变体,由于在训练时每个人就是一个类别,当类别数增大到百万量级时,分类任务会出现显存和带宽瓶颈,而百度提出的基于DCQ动态队列的全新方法,将全量分类问题转换为部分类别分类问题,可以将实际分类类别数减少几十倍,训练速度显著提升,同时由于使用了异步的特征更新机制,训练精度也显著提升,解决了大规模人脸识别训练问题。
最后,在测试阶段,团队使用了多张图片(原图、翻转图、口罩图)特征融合的方式进一步提升模型效果:
总结与展望