http://ai.yanxishe.com/page/paper
(戳文末阅读原文直接进)
Zhan Xiaohang /Liu Ziwei /Yan Junjie /Lin Dahua /Loy Chen Change
推荐原因
人脸识别中,随着深度学习模型参数量的增大,所需要训练数据的人工标注量也越来越多。然而人工标注的错误难以避免,当人工标注的可靠性不如模型本身的时候,数据标注所带来的增益会远远低于标注本身耗费的劳动量。此时,需要使用一种合理的方式来利用无标注数据。该问题与“半监督学习”任务相似,但在人脸识别这类数据量和类别数量都很大的任务中,则存在显著的不同之处:首先,真实情况下,无标注数据的来源通常没有限制,因此光照、姿态、遮挡等会有很大的差异,这种情况下基于单模型的半监督方法会产生较大偏差。其次,传统的半监督学习通常假设无标注数据的标签集合和已标注数据的标签集合是完全重合的,从而标签可以在无标注数据上进行传播。然而,在人脸识别任务中,由于无标注数据来源无限制,因此无法保证获取的无标注数据的标签在已标注数据中出现过。这些差异使得传统的半监督学习无法直接运用在这个问题上。本文工作不仅突破了这些限制,还证明了无标注数据可以达到和有标注数据相接近的效果。作者用9%的有标注数据和91%的无标注数据,在MegaFace上达到了78.18%的准确性,接近使用了100%的有标注数据的结果78.52%。
来自AI研习社用户@约翰尼•德普的推荐
摘要
Modern face recognition system mainly relies on the power of high-capacity deep neural network coupled with massive annotated data for learning effective face representations [26,14,21,29,11,3,32]. From CelebFaces [25] (200K images) to MegaFace [13] (4.7M images) and MS-Celeb-1M [9] (10M images), face databases of increasingly larger scale are collected and labeled. Though impressive results have been achieved, we are now trapped in a dilemma where there are hundreds of thousands manually labeling hours consumed behind each percentage of accuracy gains. To make things worse, it becomes harder and harder to scale up the current annotation size to even more identities. In reality, nearly all existing large-scale face databases suffer from a certain level of annotation noises [5]; it leads us to question how reliable human annotation would be.
论文查阅地址(扫描二维码直达):
http://ai.yanxishe.com/page/paperDetail/20
如果您有AI领域的优秀论文想与我们分享,欢迎您在AI研习社论文板块进行推荐!
全球AI+智适应教育峰会
免费门票开放申请!
雷锋网联合乂学教育松鼠AI以及IEEE教育工程和自适应教育标准工作组,于11月15日在北京嘉里中心举办全球AI+智适应教育峰会。美国三院院士、机器学习泰斗Michael Jordan、机器学习之父Tom Mitchell已确认出席,带你揭秘AI智适应教育的现在和未来。
扫码免费注册
点击阅读原文即可查阅/收藏更多相关论文▼