ICCV 2019 | 爱奇艺提出半监督损失函数,利用无标签数据优化人脸识别模型

2019 年 10 月 28 日 AI科技评论
 

论文发表于ICCV 2019

作者 | 爱奇艺技术产品团队

编辑 | 唐里


论文标题:Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition

论文链接:https://arxiv.org/abs/1910.10896v1

爱奇艺拥有海量优质的视频资源,对这些视频资源的结构化分析,尤其是分析视频中出现的人物尤为重要。 目前,人脸识别技术已经应用到爱奇艺多个产品中,如“AI雷达”和“只看TA”。 “AI雷达”分析当前视频画面中出现的人物,“只看TA”分析整个视频中人物出现的所有场景片段。 这两个产品底层都依赖人脸识别技术。
训练一个高性能的人脸识别模型,采用监督学习的方式,需要大量的带标签的人脸数据,通常数据量越大,训练的模型性能越好; 人物越多,识别性能越好。 目前公开库中较大的人脸数据集MS-Celeb-1M包括约10万个人物的1000万张图片; iQIYI-VID包括约1万个人物的64万个视频片段,其中iQIYI-VID-FACE包含约1万个人物600万张人脸图像。
然而,获取某个人的多张图片是比较困难的,需要人工标注。 这在一定程度上阻碍了模型性能的提升。 同时,人脸识别是个open-set问题,有标签数据中的几万个人物只是地球上几十亿人的极小一部分,训练出来的模型泛化能力可能不足。
为了解决上述问题,我们提出用无标签数据优化人脸识别模型。区别于其他半监督学习方法, 我们的方法对无标签数据没有过多限制,只需基本保证这人不出现在有标签数据中。 无标签数据的加入,可以轻易扩大训练人物数量,提升模型泛化能力。


UIR Loss
为了利用无标签数据,我们设计了半监督损失函数,Unknown Identity Rejection(UIR)Loss。 人脸识别是open-set问题,将开放环境中的人物类别分为两类: 有标签类(S)和无标签类(U),S ∩ U= ∅。 训练过程中,对于有标签类,每个样本特征需要逼近分类层对应类别的类心向量; 对于无标签类,它不属于分类层的任何一个类,模型需要“拒绝”它们,即特征与每个分类层类心距离都足够远。 如下图(a),W1 和 W2 表示两个分类层类心向量,圆点表示样本特征。 图(b)中,加入无标签类Wu后,为了Wu距离W1、W2足够远,会使得有标签类别在特征空间上更稀疏,类间距离更大。
对于CNN分类模型,全连接分类层的输出经过softmax后得到p1,p2, ... , pn,表示属于各个类别的概率值。 然而无标签类别并不属于任何一类,理想情况下 p1,p2, ... , pn 应该都足够小,可以通过设置阈值将其过滤,提升库外拒绝率。 基于这个想法,问题可以转化成:

上式是多目标最小化问题,可以转化成:

因此得到UIR loss,即:

模型总的loss是有标签类别的loss加上无标签类别的UIR loss,
模型框图如下,无标签数据和有标签数据一起作为输入,经过骨干网络得到特征,全连接层得到输出概率值,根据概率值分别计算



实验结果

我们采用MS-Celeb-1M清洗过后的MS1MV2数据集作为有标签数据,包括9万人物类别的5百万图片数据。 从网上爬取数据,经过清洗,基本保证与有标签数据较低的重合率,得到约4.9百万张无标签数据。
分别在iQIYI-VID和Trillion-Pairs和IJB-C三个测试集上验证了方法的有效性。 测试了四种骨干网络,实验结果说明,加入无标签数据的UIR loss后,模型性能有所提升。 由于篇幅原因,IJB-C测试结果只贴了ResNet100部分,其他结果可参照论文。


进一步分析

UIR Loss使得特征分布更稀疏
从实验结果来看,加入无标签数据的UIR loss后,UIR Loss能使模型学习到更具区分性的特征。 下面从模型分类层类心间距离这一角度来验证特征分布的稀疏性。 我们计算了分类层类心两两间的cos距离,距离越大,类心分布更稀疏。 结果如下表:
随着骨干网络性能提升,baseline和ours的平均距离逐渐增大。 同时,ours的平均距离大于baseline。 这说明了UIR Loss使得特征分布更稀疏。
UIR Loss提升库外拒绝率
我们找了一批新的无标签数据,统计了它们模型最后输出的最大概率值,值越小,代表性能越好。


总结与展望

半监督损失函数UIR loss可以有效的借助海量无标签的人脸数据,优化人脸识别模型性能,提升模型泛化能力。 这一研究成果已经应用到了爱奇艺诸多产品中,在提高用户体验、提高视频内容的创作效率等都发挥了极大作用。
爱奇艺APP的“只看Ta”功能,可以实现只看某个演员或者某对CP的功能,不仅满足用户追星或只看某些人物片段的需求,还有助于演员回顾自己演戏的内容,甚至帮助导演挑选自己需要的演员。
其实,帮助导演选择演员,爱奇艺还专门有个APP叫“艺汇”,艺汇里通过AI收集了大量的知名或不知名的演员,借助强大的人脸识别模型,不仅可以在海量视频中定位到只属于该演员的CUT片段,还会根据演员的颜值、脸型、气质类型精确搜索心意角色。
人脸识别的另一大特色应用,就是用户所熟知的AI雷达功能,在爱奇艺APP中点击画面左侧的“扫一扫”按钮,就可以随时看到画面中的演员角色信息,同时在电视端遥控器轻轻按“上键”,就可以在电视画面上展现明星的“这是谁”信息。
在专业的视频内容制作方面,爱奇艺的爱创媒资系统可以支持人物搜索、特定人物的表情搜索、声纹识别等,大大提高了制作人员的效率。
爱奇艺借助其强大的技术实力和前沿的AI研发能力,不断的创新突破,走在视频行业的最前面。 当然,技术创新永无止境,人脸识别虽然有诸多成熟的应用,但在某些较为极端的情况下,如人脸过于模糊、遮挡过多、侧脸角度过大,甚至只出现背影等情况,单纯依靠人脸识别无法解决,这需要借助多模态来解决。 爱奇艺发布的iQIYI-VID数据集是目前业界数据最大的多模态人物识别视频数据集,有效的推进了多模态技术的发展,引起了行内人士的广泛关注。
数据集详情参见http://challenge.ai.iqiyi.com/data-cluster



点击“阅读原文”查看更多论文
登录查看更多
2

相关内容

【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
60+阅读 · 2020年6月25日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
26+阅读 · 2020年5月25日
专知会员服务
41+阅读 · 2020年2月20日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
人脸识别研究取得进展
中科院之声
4+阅读 · 2019年3月26日
人脸识别损失函数综述(附开源实现)
极市平台
29+阅读 · 2019年3月12日
【紫冬新作】人脸识别新突破:真实场景下的大规模双样本学习方法
中国科学院自动化研究所
11+阅读 · 2019年3月7日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Few-shot Adaptive Faster R-CNN
Arxiv
3+阅读 · 2019年3月22日
Arxiv
7+阅读 · 2018年11月27日
Arxiv
6+阅读 · 2018年3月29日
VIP会员
相关资讯
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
人脸识别研究取得进展
中科院之声
4+阅读 · 2019年3月26日
人脸识别损失函数综述(附开源实现)
极市平台
29+阅读 · 2019年3月12日
【紫冬新作】人脸识别新突破:真实场景下的大规模双样本学习方法
中国科学院自动化研究所
11+阅读 · 2019年3月7日
Top
微信扫码咨询专知VIP会员