【首次超越人类】旷视行人再识别（ReID）突破，人脸识别后创新纪录

2017 年 11 月 24 日 新智元 新智元

新智元AI World 2017世界人工智能大会开场视频

中国人工智能资讯智库社交主平台新智元主办的 AI WORLD 2017 世界人工智能大会11月8日在北京国家会议中心举行，大会以“AI 新万象，中国智能+”为主题，上百位AI领袖作了覆盖技术、学术和产业最前沿的报告和讨论，2000多名业内人士参会。新智元创始人兼CEO杨静在会上发布全球首个AI专家互动资讯平台“新智元V享圈”。

全程回顾新智元AI World 2017世界人工智能大会盛况：

新华网图文回顾
http://www.xinhuanet.com/money/jrzb20171108/index.htm

爱奇艺
上午：http://www.iqiyi.com/v_19rrdp002w.html

下午：http://www.iqiyi.com/v_19rrdozo4c.html

阿里云云栖社区
https://yq.aliyun.com/webinar/play/316?spm=5176.8067841.wnnow.14.ZrBcrm

新智元报道

编辑：闻菲

【新智元导读】行人再识别（ReID）是近年来计算机视觉的一个研究重点，给定一个监控行人图像，跨设备检索该行人的图像。由于不同摄像设备之间存在差异，行人外观易受穿着、尺度、遮挡、姿态和视角等影响，行人再识别是一个既具研究价值同时又极富挑战性的课题。日前，旷视科技Face++的研究团队，让机器在行人再识别（ReID）上首次超越人类，创下了行业纪录。

旷视科技首席科学家、研究院院长孙剑表示：“我非常高兴看到又一个非常难且有巨大应用价值的图像感知问题，被旷视科技团队的算法超越了人类性能。”研究人员表示，这为目前机器代替人类处理大量以人为中心的图像或视频理解问题带来了更强大的技术。

近年来，人脸识别技术的成熟使得机器在辨别人脸的能力上大举超过人类，在构建“智慧城市”、“平安城市”等方面也得到了广泛应用。然而在实际应用的场景中，摄像头并非在任何情况下都可以拍摄到清晰人脸。不仅如此，在实际的场景中，一个摄像头往往无法覆盖所有区域，而多摄像头之间一般也没有重叠。

因此，用全身信息来对人员进行锁定和查找就变得十分必要——通过将整体行人特征作为人脸之外的重要补充，实现对行人的跨摄像头跟踪。于是，计算机视觉领域开始逐渐展开针对“行人再识别”技术的研究工作。

行人再识别：实际意义重大，目前仍依赖大量人力投入

行人再识别（Person Re-Identification，简称 ReID），从字面意思理解就是对行人进行重新识别，是对不同的、没有视野重叠覆盖的（non-overlapping）摄像机拍摄的行人图像建立对应关系的处理过程。当摄像头拍摄范围之间不存在重叠时，由于没有了连续信息，检索难度也随之增大非常多。因此，行人再识别强调的是在跨摄像机的视频中对特定行人进行检索。

行人再识别：将图像中某个行人的特征与其他图像中行人特征进行对比，判断是否属于同一个人，相比行人检测难度更大。

如果说行人检测是要机器判定图像中是否存在行人，那么行人再识别就是要机器识别出不同摄像机拍摄的特定人员的所有图像。具体说，就是给定某人的一张图片（query image），从多张图片（gallery images）中找到属于他／她的那一张或多张，是通过行人整体特征实现的人员比对技术。

行人再识别（ReID）在公共安防的刑侦工作中以及图像检索等场景中有很高的应用价值。除此之外，ReID还可以帮助手机用户实现相册聚类、帮助零售或商超经营者获取有效的顾客轨迹、挖掘商业价值。然而，受限于行业水平，目前行人再识别的精准度并不高，很多工作仍依赖于大量人力的投入。

打破行人再识别行业纪录，首次超越人类专家

由于图像拍摄的时间、地点随机，且光线、角度、姿态不同，再加上行人容易受到检测精度、遮挡等因素的影响，ReID 的研究工作非常具有挑战性。

近年来受益于深度学习的发展，ReID 技术水平也得到了很大提升，在两个最为常用的ReID测试集Market1501和CUHK03上，首位命中率分别达到了89.9%和91.8%。不过，这个结果与人相比还是有一定的差距。实验表明，一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。

为了测试人类的ReID能力，研究者组织了10名专业的标注人员来进行测验。结果表明，一个熟练的标注员在Market1501和CUHK03上的首位命中率分别可以达到93.5%和95.7%。这个是现有的ReID方法无法企及的。

但不久前，旷视科技Face++在此项研究中取得了令人兴奋的进展：在旷视研究院团队发表的文章AlignedReID[1]中，作者提出了一种新方法，通过动态对准（Dynamic Alignment）和协同学习（Mutual Learning），然后再重新排序（Re-Ranking），使得机器在Market1501和CUHK03上的首位命中率达到了94.0%和96.1%，这也是首次机器在行人再识别问题上超越人类专家表现，创下了业界纪录。

继人脸识别之后，在更复杂的行人再识别领域中机器也超越了人类！这为目前机器代替人类处理大量以人为中心的图像或视频理解问题带来了更强大的技术。

旷视科技首席科学家、研究院院长孙剑表示：“最近几年，随着深度学习方法的复兴，从2014年的人脸识别到2015年的ImageNet图像分类，我们已经看到机器在越来越多的图像感知问题中超越了人类。记得不久前和我的导师、前微软领导沈向洋博士（微软全球执行副总裁）聊天时吹了个牛——感知问题5-10年基本都能解掉。今天，我非常高兴看到又一个非常难且有巨大应用价值的图像感知问题，被旷视科技团队的算法超越了人类性能。”

让多个网络自动学习人体结构对齐，并彼此相互学习

那么作者具体是如何做到的？

和其他基于深度学习的ReID方法类似，作者同样是用深度卷积神经网络去提取特征，用Hard Sample Mining后的Triplet Loss做损失函数，把特征的欧式距离作为两张图片的相似度。

不同之处在于，作者在学习图像相似度的时候考虑了人体结构的对齐。虽然此前有人考虑过这一点，比如简单的，把人的头、身、腿分成三截；还有精细一点的，先通过人体骨架估计，然后再通过骨架信息来对齐。但后一种方法，引入了另一个困难的问题或要求额外的标注工作。AlignedReID[1]作者的思路是引入端到端的方法，让网络自动去学习人体对齐，从而提高性能。

在AlignedReID中，深度卷积神经网络不仅提取全局特征，同时也对各局部提取局部信息。对于两张图片中任意一对局部信息，计算它们之间的距离，构成一个距离矩阵。再通过动态规划，计算一条从矩阵左上角到右下角的最短路径。这条最短路径中的一条边就对应了一对局部特征的匹配，它给出了一种人体对齐的方式，在保证身体个部分相对顺序的情况下，这种对齐方式的总距离是最短的。在训练的时候，最短路径的长度被加入到损失函数，辅助学习行人的整体特征。

如图所示，乍一看，这条最短路径上有一些边是冗余的，例如图中的第一条边。为什么不只寻找那些匹配的边呢？作者给出的解释是这样的：局部信息不仅要自我匹配，也要考虑到整个人体对齐的进程。为了使匹配能够从头到脚按顺序进行，那么有一些冗余的匹配是必须的。另外，通过设计局部距离函数，这些冗余匹配在整个最短路径的长度中贡献很小。

除了在训练过程中让人体结构自动对齐外，作者还提到了同时训练两个网络并使它们互相学习，可以有效提高模型的精度。这个训练方法在分类问题中已经比较常见，作者做了一些改进让它能够应用于度量学习（Metric Learning）。

在上图所示的训练过程中：同时训练的两个网络都包含一个分支做分类，一个分支做度量学习。两个做分类的分支通过KL divergence互相学习；两个做度量学习的分支通过作者提出的metric mutual loss互相学习。而如前所述，度量学习的分支又包括两个子分支，一个是全局特征的分支，一个是局部特征的分支。比较有趣的是，一旦训练完成，分类分支和局部特征分支都被丢弃，只保留了全局特征分支做ReID。也就是说，无论是训练行人分类，还是通过人体对齐学习局部特征，都是为了更好的得到图像的全局特征。

最后，作者还采用了文献[2]中提出的k-reciprocal encoding来做重新排序。

上图的第一行是要查找的行人，大家猜一猜第二行和第三行哪个是人给出的结果，哪个是机器给出的结果吧。（答案文末揭晓）

此文所展示的方法让ReID技术在实验结果的表现中上了全新的台阶。不过文章的最后也指出，虽然机器在两个常用数据集上超过了人类的水平，但还不能说行人再识别（ReID）任务已经被很好地解决了。在实际的应用中，人类，尤其是经过专业训练的人，可以通过经验、直觉，并利用环境、上下文等综合信息，在拥挤，模糊，昏暗等情况下进行更深入的分析，所以在开放和极端条件下的环境中，人和机器相比仍具有很大的优势。在未来的实践中，行人再识别（ReID）的解决和应用还需要更多努力。

AlignedReID文章作者之一张弛表示：“我们从2016年开始研究ReID，当时Top1的精度达到60%就可以说是state of the art了。但是业务要求至少达到90%以上，甚至更高。现在我们已经在两个常用数据集上做到超过人类水平，到这也只是迈出了实用化的第一步，在实战场景中还有更多的挑战要应对。希望ReID技术的进一步成熟，能让我们的社会更安全，更便捷。”

最后公布刚刚的答案，第三行为机器的识别结果。

参考文献

[1] X. Zhang, H. Luo, X. Fan, W. Xiang, Y. Sun, Q. Xiao, W. Jiang, C. Zhang, and J. Sun. AlignedReID: Surpassing Human-Level Performance in Person Re-Identification. arXiv :1711.08184, 2017
[2] Z. Zhong, L. Zheng, D. Cao, and S. Li. Re-ranking person re-identification with k-reciprocal encoding. arXiv:1701.08398, 2017

‍

登录查看更多