【ICCV2019】中科院自动化所：AlignGAN-夜间行人重识别：通过联合像素和特征对齐解决跨模态行人重识别

2019 年 10 月 29 日 专知

导读

计算机视觉顶级学术会议ICCV2019今日在韩国首尔召开，中科院自动化所王贯安博士在行人重识别领域的研究工作AlignGAN被ICCV2019接收，该工作重点在于通过联合像素和特征对齐解决跨模态行人重识别问题。

论文地址：

http://openaccess.thecvf.com/content_ICCV_2019/papers/Wang_RGB-Infrared_Cross-Modality_Person_Re-Identification_via_Joint_Pixel_and_Feature_Alignment_ICCV_2019_paper.pdf

项目主页：

https://github.com/wangguanan/AlignGAN

作者：王贯安，博士研究生

单位：中国科学院自动化研究所

研究领域：行人重识别，图像检索，计算机视觉

E-mail：guan.wang0706@gmail.com

关键词

夜间行人重识别，跨模态图像检索，对抗训练，计算机视觉，深度学习

摘要

夜间行人重识别在视频监控、安防等领域有着重要的应用，但是该问题却没有被很好的解决。这主要是因为夜间红外行人图像和日间彩色行人图像之间存在巨大的模态差异，这种差异使得跨模态图像匹配变得更加困难。为了解决夜间行人重识别的问题，本文创新性的提出了像素对齐（Pixel Alignment）的思路来缓解模态差异问题，并提出联合判别（Joint Discriminator）的策略来保持对齐过程中的身份一致性。该方法在目前最具挑战性的夜间行人数据集上，显著高于其他最好方法10%以上。

背景

行人重识别。行人重识别（Person Re-Identificaton）在视频监控、安防、智慧城市等领域有着举足轻重的作用。它具有类内差异差大（同一个人表观特征可以非常不同），类间差异小（不同的人表观特征可以非常相似）等难点。这主要是由于摄像头拍摄角度，光照差异，行人姿态变化以及遮挡等因素造成的。

夜间行人重识别。目前很多行人重识别的算法被提了出来[1,2]，但是这些算法主要研究基于彩色（RGB）图像的日间行人重识别。夜间场景同样是监控、安防等领域的重点领域（注：这里的夜间场景不仅包括单纯夜间行人重识别，更包括跨日夜行人重识别，即如何在给定行人白天/晚上图片的情况下，匹配他晚上/白天的图片）。虽然很多监控控摄像机可以自动从可见光模式（visible mode）转化成红外模式（infrared mode），并分别采集到彩色（RGB）图像和红外（Infrared）图像，但是目前很多优秀的行人重识别算法并不支持这种彩色-红外图像之间的匹配。这主要是由于彩色（RGB）和红外（Infrared）图像之间存在巨大的模态差异（modality gap）。如图1所示，RGB图像有3个通道，包含着彩色信息。而红外图像只有1个通道，包含着不可见光信息。

夜间行人重识别未被很好解决。为了能够更好的讲行人重识别算法应用在夜间场景，一些相应的目前的彩色-红外跨模态行人重识别算法（RGB-IR Person Re-Identification）被提了出来，来解决这种不同性质图片之间的模态差异。目前，这些方法的主要策略是特征对齐（feature alignment），即通过一些网络结构、损失函数设计，把两种不同的数据映射到一个特征空间，来减少他们的模态差异（modality gap）。但是从实际效果来看，由于两种数据的差异巨大，单一使用这种方法无法较好的解决夜间行人重识别问题。如下表所示，即便是目前最优异的算法，它的rank-1性能在夜间场景下只能达到27.9%，而在相应的日间场景下，可以轻松到达90%。

表1 夜间行人重识别性能远低于日间行人重识别

简介

像素对齐模块：从像素级别缓解模态差异。 一个解决思路是通过一个像素对齐模块（Pixel Alignment Module）把RGB图像合成虚拟的infrared图像，然后再匹配虚拟的infrared图像和真实的infrared图像。这样，原本存在于RGB和infrared图像之间的模态差异就可以被虚拟的infrared图像缓解。如图1所示，我们先通过一个像素对齐模块（Pixel Alignment Module）把原本的彩色图像（real RGB images）转化成虚拟的近红外图像（fake IR images），然后通过特征学习的策略来匹配虚拟的近红外图像（fake infraredimages）和真正的近红外图像（real IR images）。

图1 像素对齐模块：通过把RGB图像转化为虚拟的IR图像，来缓解两种数据之间的模态差异问题

联合判别模块：考虑身份一致性，保证模态对齐不会引入新噪声。尽管如此，我们仍然面临一个棘手的困难，那就是行人重识别是一个Zero-Shot问题，即测试标签和训练标签是不重合的。因此，在训练过程中，像素对齐和特征对齐模块均无法通过简单的拟合训练集合的标签，来确保推理过程的身份一致性。比如，在特征空间，行人A的彩色数据可能会被对齐到行人B红外数据。这种情况下，虽然模态差异减少了，但是身份信息却丢失了，最终无法进行正确的行人重识别，这是我们不想要的。

为了解决上述问题，我们进一步提出了一个联合判别模块（Joint Discriminator Module）。如图2所示，联合判别模块并不单独最小化RGB和Infrared图像之间，或者RGB和Infrared特征之间的差异，而是最小化RGB和Infrared图像-特征对之间的差异。即，我们优化RGB图像-特征和Infrared图像-特征的联合分布。

具体来说，只有那些有符合红外数据分布的图像和特征，并且图像和特征来自同一个ID的的图像-特征对，联合判别模块才把他判定为真。因此，在这种框架下，我们不仅使得原本的彩色数据（图像或特征）更加接近红外数据（图像或特征）的分布，从而减小模态差异，还可以在对齐过程中，保持图片和特征的原始ID信息。

图2(c) 联合判别模块：通过学习图像-特征的联合分布来解决对齐过程中的身份一致性问题

模型介绍

图3 方法框架

像素对齐模块（Pixel Alignment Module）。参考CycleGAN方法，我们的像素对齐模块包含两套生成器和判别器。这两套生成器分别用于RGB2IR以及IR2RGB。对应的，两套判别器分别用于判别合成的IR图像和合成的RGB图像。请注意，虽然在训练过程中我们用到了两套生成器和判别器，但是在推理过程中，我们只用了RGB2IR的生成器，去进行像素对齐操作。

具体来说，我们的像素对齐模块包含一个循环损失（cycle loss）以及一个ID损失（cls+tri）。其中，循环损失使得生成的图片能够保持原有的结构和内容（比如姿态、角度等），ID损失使得合成的图片尽可能和原始图片保持相同的身份信息。这些损失函数分别如公式1，公式2所示。

特征对齐模块（Feature Alignment Module）。 尽管特征对齐模块可以减少模态间（inter-modality）差异，但是这里仍然存在着很大的模态内（intra-modality）差异，这些差异主要是由于姿态，视角以及光照等因素造成的。为了解决这个问题，我们采用了一个特征对齐模块，把真实的红外图像和合成的红外图像映射到同一个特征空间，并使用基于身份标签的分类和三元组损失来监督特征。对应的损失函数如公式5所示。

联合判别模块（Joint Discriminator Module）。根据上述讨论，为了能够更好的保持身份一致性，我们提出了一个联合判别模块，来学习图像-特征对的联合数据分布。具体来说，它的输入为图像-特征对，只有真实的图像和特征，且来自同一个ID，才会被判别为真，否则为假。对应的目标函数如公式8所示。

对应的，像素对齐模块和特征对齐模块的对抗损失函数分别入公式9和公式10所示。

最终，我们的模型可以通过优化如公式4，公式6和公式7所示的目标函数完成。

实验

表2 在夜间行人重识别数据集SYSU-MM01上的实验结果

SYSU-MM01是由中山大学吴岸聪等人采集的彩色-红外行人重识别数据集。它包含来自4个彩色摄像机和2个红外摄像机采集的491个人的超过3万张图片。是目前本领域最大，最具挑战性的数据集。在该数据集上，我们的方法显著的超过了其他的方法是少10%。

像素对齐模块可视化。如图4所示，我们可视化了图像对齐模块生成的图片。可以看到，我们的像素对齐模块可以很好地用RGB图像合成IR图像，从而极大的减小了模态之间的差异。

图4 合成图像可视化

特征空间可视化。如图5(a)和图5(b)所示,一些简单的baseline方法可以很好的对齐训练数据，但是无法很好的对齐测试数据，说明跨模态差异无法通过简单的特征对齐方法进行解决。如图5(c)所示，当我们只使用像素对齐模块的时候，模态差异已经被极大的减小了，但是仍然存在一些身份不一致的问题（如红圈所示）。最后，图5(d)表明，当使用了我们的联合判别策略之后，身份一致性可以被很好的保持。

图5 特征可视化，不同的颜色代表不同的模态，不同的形状代表不同的ID

结论

本方法拟解决夜间行人重识别中的关键难点，创新性的提出了像素对齐（Pixel Alignment）的思路来缓解模态差异问题，并提出联合判别（Joint Discriminator）的策略来保持对齐过程中的身份一致性。该方法在目前最具挑战性的夜间行人数据集上，显著高于其他最好方法10%以上。

参考文献

[1] Zheng, W.-S., Gong, S., & Xiang, T.(2011). Person re-identification by probabilistic relative distance comparison.In CVPR 2011 (pp. 649–656).

[2] Zheng, L., Shen, L., Tian, L., Wang,S., Wang, J., & Tian, Q. (2015). Scalable Person Re-identification: ABenchmark. In 2015 IEEE International Conference on Computer Vision (ICCV) (pp.1116–1124).

-END-

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取更多AI知识资料！