NeurIPS 2021 | 图像损坏场景下行人重识别新基准

2022 年 2 月 25 日 CVer

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达、

作者:摆渡  |  已授权转载(源:知乎)编辑:CVer

https://zhuanlan.zhihu.com/p/460011200


0. 导读

行人重识别(Person ReID)在安全部署领域有着广泛应用,当前的研究仅考虑ReID模型在干净数据集上的性能,而忽略了ReID模型在各种图像损坏场景(雨天、雾天等)下的鲁棒性。现实场景中,采集到的数据不可避免地会受到天气、噪声、模糊等影响,因此,了解ReID模型在复杂损坏场景下的鲁棒性是重要的研究课题。

1. 论文和代码地址

Benchmarks for Corruption Invariant Person Re-identification

论文地址:

https://arxiv.org/abs/2111.00880

开源代码:github.com/MinghuiChen43/CIL-ReID

2. 贡献

本文是SUSTech VIP Group(南方科技大学 视觉智能与感知课题组)针对图像损坏场景下的行人重识别的研究。

  • 文章首次对单模态、跨模态行人重识别任务中模型的损坏鲁棒进行了详尽的研究,在单模态数据集(Market-1501, CUHK03, MSMT17)和跨模态数据集(RegDB, SYSU-MM01)上,评估了近年21个ReID模型在图像损坏场景下的鲁棒性;

  • 文章首次揭示了模型跨数据集泛化能力与损坏鲁棒性之间的关联,表明损坏鲁棒性的研究更贴近现实场景中的域偏移问题;

  • 文章针对图像损坏场景下行人重识别提出了新的基线方法,CIL(Consistent ID Loss, Inference before BNNeck, Local-based Augmentation)。

3. CIL-ReID Benchmark

3.1 评估指标

常用的衡量ReID模型性能的指标为 mAP (mean average precision)和CMC-k (cumulative matching characteristics, 即Rank-k)。除此之外,文章引入mINP (mean inverse negative penalty)来衡量模型在最难匹配样本上的性能。mINP的计算公式为:

3.2 Corruption ReID数据集

文章基于现有的单模态数据集Market-1501,CUHK-03, MSMT17,跨模态数据集 RegDB,SYSU-MM01,结合20种现实场景中常见的图片损坏情形,构造了相应的损坏场景下的行人重识别数据集,Market-1501-C, CUHK-03-C, MSMT17-C, RegDB-C, SYSU-MM01-C。

20种图片损坏算法,包括15种来自ImageNet-C, 4种来自Extra ImageNet-C,以及额外引入的“下雨”这一常见的天气带来的图片损坏,包括噪声、模糊、天气、数码四种大类,如下所示:

Corruption Class Corruption Type
Noise Gaussian, Shot, Impulse, Speckle
Blur Defocus, Frosted Glass, Motion, Zoom, Gaussian
Weather Snow, Frost, Fog, Brightness, Spatter, Rain
Digital Contrast, Elastic, Pixel, JPEG Compression, Saturate

每一种损坏情形,对应五种不同的剧烈程度(Level-1,.., Level-5),共同组成100种不同程度、类型的损坏场景。

以Gaussian (Noise), Defocus (Blur), Snow (Weather), Contrast (Digital)四种损坏场景为例,下图可视化了五种不同损坏程度下的行人图像。

相比于分类任务(输出类别信息)和检测任务(输出物体的bounding box),重识别是一个图片匹配的任务,测试集分为query和gallery。由于任务的特殊性,文章额外给出了三种测试设定:query和gallary都是损坏的图片;只有query是损坏的图片;只有gallery是损坏的图片。需要注意的是,对于跨模态数据集(RGB图片和红外图),只有RGB图片可能会经过损坏处理,而对红外图不做任何损坏处理。

3.3 损坏鲁棒性测试

文章选取了当前21个ReID方法,基于上述构建的5个损坏场景下的行人数据集,在四种测试设定下(正常数据集 + 3种损坏设定),评估了不同ReID方法的性能。21个ReID方法为:AGW,BoT,ABD-Net,OS-Net,DG-Net,MHN,BDB,TransReID,LGPR,F-LGPR,TDB,LUPerson,LightMBN,PLR-OSNet,CaceNet,PCB,Pyramid,AlignedReID++,RRID,VPM,和MGN,性能评估指标为,Rank-1,mAP,mINP。以Market-1501和Market-1501-C为例,结果如下图所示(具体数据见原文):

(1) 实验结果表明,现有的ReID方法在损坏场景下的性能很差。如图所示,现有模型在干净数据集上的性能和在损坏场景下的性能之间并没有明显的正相关性,例如,在LightMBN在Market-1501上能达到很好的性能(mAP: 91.54%,),而在Market-1501-C上的性能(mAP: 14.84%)相对较差。

(2) TransReID在损坏场景下的各项性能指标都能达到最高。基于part-level的ReID方法(PCB,Pyramid,RRID等)在干净数据集和损坏数据集上都能取得很好的性能,一定程度上表明,对于局部特征的挖掘有助于提升模型在图片损坏场景下的性能,例如,简单的PCB方法,在损坏场景下也能取得很好的性能。

(3) 上述的21种ReID方法中,部分方法是针对数据集噪声提出的,例如:严重遮挡(VPM), 不准确的bounding box(Pyramid),光照变换(BDB),风格变换(DG-Net),对抗扰动(F-LGPR)。但是,这些噪声鲁棒的方法在图片损坏场景下并没有取得很好的鲁棒性。本文认为,损坏鲁棒性ReID和之前研究的噪声棒性ReID存在互补关系,有待进一步挖掘。

3.4 基线方法——CIL

针对图片损坏场景下的行人重识别任务,本文提出了一种基线方法(CIL),在3个单模态数据集和2个跨模态数据集上取得了SOTA性能。CIL-ReID 包括从以下三个关键部分:

(1) 局部数据增强算法

随机擦除(Random Erasing)是一种数据增强方法,在模型训练阶段,其将图片中的随机一小块像素替换为随机噪声。随机擦除在多个ReID数据集上被验证能够提升模型在干净数据集上性能,但是本文发现随机擦除会损害模型的图片损坏场景下的性能。

同样,另一种数据增强方法,RandomPatch(在模型训练阶段将图片中的随机块替换为另一张图片的中随机块),也被证实能提升模型在干净数据集上的性能,但会损坏在损坏场景下的性能。

本文认为,这两种数据增强方法会影响模型挖掘局部信息的能力,进而,本文提出了两种数据增强方法:(a)Soft Random Erasing,将图片中的随机一小块以一定的比例替换为随机噪声,以一定比例保留原始的像素信息;(b)Self Patch Mixing,将图片中的随机一小块替换为该图片中另一个随即块。两组数据增强方法的可视化如下图所示。

(2) 一致性ID loss

现有的ID loss是基于cross-entropy计算而来的,如下,

现有的ID loss仅计算单张增强图片的损失,为了进一步约束模型从不同的增强图片挖掘一致性的特征,本文引入原始图片后验概率与增强图片后验概率之间的JS散度,如下,


(3) 在BNNeck前推断

BNNeck是指在提取的图片特征和分类层之间的BN层,BNNeck之前的feature用于triplet loss的计算,BNNeck之后的feature用于分类loss的计算。BNNeck的引入是为了使挖掘到的图片特征在超球体表面服从高斯分布,并加速ID loss的收敛。本文发现,利用BNNeck之后的特征进行重识别任务会降低模型的损坏鲁棒性,如下表所示。

4. 实验

(1) 网络架构

在评估21种ReID方法后,文章发现,TransReID有着更好的损坏鲁棒性。由于TransReID有着区别于其他方法的特殊架构(Transformer),为进一步分析不同网络架构对损坏鲁棒性的影响,文章对比了基于CNN和Transformer两种骨干网络的ReID方法,如下表所示。

实验结果表明,同等参数量和计算开销下,基于Transformer架构的ViT有更好的损坏鲁棒性。此外,选取BN层前的feature进行推断,能显著提升模型的损坏鲁棒性。

(2) 数据增强

数据增强能帮助提升模型的损坏鲁棒性,文章对比了不同数据增强方法对模型损坏鲁棒性的影响,如下表所示。AugMix相较于其他方法,能更显著提升模型的损坏鲁棒性。在通AugMix相结合时,本文提出的Soft Random Erasing 和 Self Patch Mixing比传统的Random Erasing 和 Random Patch,能够取得更好的泛化性能(即同时提升在干净数据集和损坏数据集上的性能)。

(3) ReID损坏鲁棒性新基准

本文针对图片损坏场景下的重识别问题提出新的基线方法,CIL,其由三个关键部分组成:一致性ID loss (Consistent ID loss),BNNeck 前推断(Inference before BNNeck),局部数据增强(Local-based augmentation)。CIL在3个单模态数据集和2个跨模态数据集上的损坏鲁棒性都取得了SOTA的性能。如下表所示。

CIL三个关键组成部分的消融实验如下所示,

(4) 损坏鲁棒性和泛化性

以前对于损坏鲁棒性的研究中,并没有太多关于鲁棒性和跨数据集泛化性的讨论。例如,在图像分类任务中,Taori et al. [2] 表明,模型在合成的域偏移问题中的鲁棒性,对现实场景中的域偏移问题并不能起到很好的预见性。相反的是,本文发现,在行人重识别任务中,模型的损坏鲁棒性和跨数据集泛化性之间存在着一定的关联。如下图所示,文章在不同的ReID方法(图左)和不同的数据增强方法(图右)进行了验证实验,所有模型均在Market-1501上训练,红线为Market-1501测试集上的损坏鲁棒性,绿线为MSMT17测试集上的性能。实验结果表明,行人重识别任务中,模型的损坏鲁棒性和跨数据集泛化性之间存在强线性正相关(图左皮尔森相关系数ρ=0.97)。

5. 结论

本文提出了一个全新的ReID任务场景,图片损坏场景下的行人重识别。本文对21种ReID方法在5个数据集上进行了详尽的损坏鲁棒性评估,同时针对ReID中损坏鲁棒性提出了新的基线方法——CIL,并取得了SOTA的性能。

此外,本文发现在ReID任务中,模型的损坏鲁棒性和跨数据集泛化性之间存在着强线性正相关,因此,对损坏鲁棒性的研究对解决现实场景中域偏移问题有重要的启发作用。


[1] Ye M, Shen J, Lin G, et al. Deep learning for person re-identification: A survey and outlook[J]. TPAMI, 2021.

[2] Taori R, Dave A, Shankar V, et al. Measuring robustness to natural distribution shifts in image classification[J]. arXiv preprint arXiv:2007.00644, 2020.

附:Leaderboard

Market-1501-C:

https://paperswithcode.com/sota/person-re-identification-on-market-1501-c

CUHK-03-C:

https://paperswithcode.com/sota/person-re-identification-on-cuhk03-c

MSMT17-C:

https://paperswithcode.com/sota/person-re-identification-on-msmt17-c

RegDB-C:

https://paperswithcode.com/sota/cross-modal-person-re-identification-on-regdb-1

SYSU-MM01-C:

https://paperswithcode.com/sota/person-re-identification-on-sysu-mm01-c


ICCV和CVPR 2021论文和代码下载


后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


CVer-ReID交流群成立


扫码添加CVer助手,可申请加入CVer-ReID 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。


一定要备注:研究方向+地点+学校/公司+昵称(如ReID+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲长按加小助手微信,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

登录查看更多
5

相关内容

行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。 由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
CVPR2022 | 一种适用于密集场景的渐进式端到端目标检测器
专知会员服务
17+阅读 · 2021年5月23日
专知会员服务
25+阅读 · 2021年5月23日
【CVPR2021】自监督几何感知
专知会员服务
45+阅读 · 2021年3月6日
多源数据行人重识别研究综述
专知会员服务
40+阅读 · 2020年11月2日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
专知会员服务
113+阅读 · 2020年10月8日
专知会员服务
45+阅读 · 2020年10月5日
CVPR 2022 | 自动化所新作速览!(下)
中国科学院自动化研究所
2+阅读 · 2022年3月17日
顶刊TPAMI 2021!跨域人脸表情识别新基准
ICCV 2021 | 新的去雪数据集CSD开源
极市平台
0+阅读 · 2021年10月22日
【速览】ICCV 2021丨MVSS-Net: 基于多视角多尺度监督的图像篡改检测
中国图象图形学学会CSIG
2+阅读 · 2021年9月3日
数据集|更大的行人重识别测试集 Market-1501+500k
极市平台
26+阅读 · 2019年1月4日
镜头间的风格转换行人重识别
统计学习与视觉计算组
13+阅读 · 2018年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月16日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
相关资讯
CVPR 2022 | 自动化所新作速览!(下)
中国科学院自动化研究所
2+阅读 · 2022年3月17日
顶刊TPAMI 2021!跨域人脸表情识别新基准
ICCV 2021 | 新的去雪数据集CSD开源
极市平台
0+阅读 · 2021年10月22日
【速览】ICCV 2021丨MVSS-Net: 基于多视角多尺度监督的图像篡改检测
中国图象图形学学会CSIG
2+阅读 · 2021年9月3日
数据集|更大的行人重识别测试集 Market-1501+500k
极市平台
26+阅读 · 2019年1月4日
镜头间的风格转换行人重识别
统计学习与视觉计算组
13+阅读 · 2018年8月16日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员