行人再识别中的迁移学习

会员服务 ·

行人再识别中的迁移学习

2017 年 12 月 20 日 计算机视觉战队 Edison_G

最近，在网上搜索关于“行人重识别”及“行人再识别”等关键词，发现几乎都是关于行人检测的内容。对于“行人重（再）识别”技术能找到的资料很少，这可能是因为“行人重（再）识别”技术最近才刚刚兴起吧。

总之，除了能在谷歌学术中搜到一些Person re-identification的学术论文外，其他的资料明显没有行人检测的多。

概念解释

“行人重（再）识别”，首先从字面上将就是对“行人”进行“识别”。其中的“重（再）”则是指“重新”、“再一次”的意思。

“行人重（再）识别”技术主要是应用在视频监控方面。在刑侦工作中，刑侦人员经常要浏览多个摄像头中的视频，查找某个特定的行人在哪些摄像头曾经出现过。

计算机视觉领域的学者们形象地将针对特定行人的监控视频检索问题称为行人重识别（Personre-identification）。

接下来开始说说论文的主要内容！

1. 背景介绍

近年来，伴随着大数据集合的出现以及深度卷积神经网的发展，行人重识别的性能不断攀升。由于不同数据集合之间的差异，在一个数据集合上训练的模型直接应用于另外一个数据集合上的时候，行人重识别性能会出现大幅度的下降。

那么，行人重识别模型在跨数据集下的性能表现会是怎么样的？

行人重识别问题中的图片来源于不同的摄像头，然而，由于不同摄像头所处的角度、光照等环境的影响，行人重识别问题具有以下几个特点：

1．由于实际监控环境中，无法使用脸部的有效信息，所以，只能利用行人的外貌特征来进行识别。

2．在不同摄像头中，由于尺度、光照和角度的变化，同一个行人的不同图片中，外貌特征会有一定程度的变化。

3．由于行人姿势及摄像头角度的变化，在不同摄像头中，不同行人的外貌特征可能比同一个人的外貌特征更相似。

针对以上几个特点，计算机视觉领域的研究人员在最近几年里进行了大量的研究工作。

目前，行人重识别领域的研究工作主要分为大致两类：

1．研究行人对象的特征表示方法，提取更具有鲁棒性的鉴别特征对行人进行表示。

2．使用距离度量学习方法，通过学习一个有判别力的距离度量函数，使得同一个人的图像间距离小于不同行人图像间的距离。

今天说的这篇论文探究行人重识别模型在跨数据集合的性能表现，并构建了“Learning via Translation”的框架来进行不同数据集合之间的迁移学习。

首先讲解下“行人重（再）识别”与“行人检测”的区别：

主要应用领域的区别：

“行人重（再）识别”主要应用于刑侦工作、图像检索等方面。
“行人检测”主要用于智能驾驶、辅助驾驶和智能监控等相关领域。

主要目的区别：

“行人重（再）识别”主要目的是：判断某个摄像头中的某个行人是否曾经出现在其他的摄像头中，即需要将某个行人特征与其他行人特征进行对比，判断是否属于同一个行人。
“行人检测”主要的目的是：检测图像或视频中是否存在行人，而不需要判断该行人特征与其他行人特征是否属于同一个行人。

2 . 方法概述

假设给定源域 S上带标签的数据集合，以及目标域 T上没有带标签的数据集合。为此，该论文提出“Learning via Translation”的框架。

图1 Learning via Translation框架流程图

图1中的框架分为两个步骤：

Source-target Translation：将S域上带标签的训练数据的风格迁移到T域的风格之上；
Feature Learning：利用风格迁移后的训练数据，训练出一个re-ID模型。由于该模型是利用风格为T域上的数据训练的，所以能很好地在T域上使用。

该论文重点探究了第一个步骤，针对行人重识别问题提出了Source-target Translation的方法。

由于迁移之后的图像是用于行人重识别模型的训练，因此该论文提出了SPGAN。其的核心是：图像迁移前后能保持其ID信息不变。

为了实现该目的，SPGAN构建了无监督的Self-Similarity和Domain-Dissimilarity关系来约束Source-target Translation的学习。

下面将对SPGAN做一个详细介绍。

3. SPGAN

3.1 图像风格化

图2 DukeMTMC-reID 和 Market-1501图像示例

图2为分别来自于Duke和Market的图像示例，可以观察到两个数据集合有着很大的风格差异，具体体现在不同光照、背景、季节等上。基于数据集合风格差异的观察，作者从图像风格迁移的角度来对行人重识别的迁移学习进行探索：

如果来自于源域S 的图像，风格迁移到目标域T 之后，迁移之后的图像的风格要和目标域的风格一致；
图像迁移前后需要保持它本身的ID信息不变。这种ID信息不是图像的背景或图像的风格，而是和ID信息有潜在关系的图像行人区域。

针对第一点，数据集合之间的Image-to-Image Translation，由于Duke和Market两个数据集合没有一一对应的标签信息。作者采用了CycleGAN来实现Unpaired Image-to-Image Translation。

此外，作者还引入了 target domain identity loss来进一步约束源域S 和目标域T 之间映射关系的学习。

该loss具体为：假定一个generator是从域S 映射到域T ，那么来自于域T 的样本通过该generator得到的还是该样本。下公式为target domain identity loss。作者实验发现，该loss能够使得迁移前后的图像在颜色组成上保持一致。

3.2 SPGAN

针对第二点，基于行人重识别问题，作者构建了无监督的Self-Similarity和Domain-Dissimilarity关系来约束Source-target Translation的学习。具体介绍如下：

Self-Similarity ：一张图像迁移前后需要让ID相关的图像保持不变。那么，一张图迁移前和迁移后的特征距离需要越近越好。
Domain-Dissimilarity： 针对行人重识别的跨数据集合迁移问题，由于两个数据集合里面图像的ID是不一样的，那么一张图A从域S 迁移到域T 之后的图像G(A)，要和域T 中的任意一张图像在特征距离上远离一些。

图3给出了Self-Similarity和Domain-Dissimilarity关系的示意图。

图3 Self-Similarity和Domain-Dissimilarity关系示意图

基于上述两点，作者在CycleGAN的基础上嵌入了一个Siamese Network，Self-Similarity和Domain-Dissimilarity刚好可以采用contrastive loss来进行训练。

公式2为contrastive loss，x1和x2为输入的图像样本对，i为输入图像对的标签，i为1表示是输入的图像对是正例对，i为0表示是输入的图像对是反例对，m表示反例对之间距离margin，m为两个输入样本的欧式距离：

。

每一次迭代的时候，都可以构造出上述的样本对，该样本对不需要额外的标记信息。SPGAN可以划分为三个部分：Discriminator、Generator、SiaNet，在训练的时候三个部分交替更新：更新D的时候固定G和S，更新G的时候固定D和S，更新S的时候固定D和G。

3.3 Feature Learning

Learning via Translation 框架的第二步是特征学习。将源域S 带标签的数据风格转换到目标T 之后，可以利用转换后的数据训练行人重识别模型。

作者的核心是第一个步骤，因此特征学习的方式，作者直接采用采用了IDE来训练re-ID模型，IDE是基于ResNet-50修改的，只根据训练数据的类别数目修改了输出节点，其他的结构不变。训练好IDE之后，作者提取ResNet-50的Pool5特征来做图像的描述子，采用欧式距离进行检索。

此外作者提出了LMP （Local Max Pooling)来进一步提升行人重识别模型在target dataset上性能的方式。LMP不需要训练，只需要在测试的时候直接使用就行。

如图4所示，LMP先把ResNet-50的CONV5特征按overlap为一个像素的方式划分成P（图4中P为2）个部分，然后分别对P个部分做Global Max Pooling (GMP)，最后concatenate P个pooling的结果作为最后的图像描述子。

实验表明，P最大为6时性能最好，为此作者在实验时P都取6。（值得注意的是，当P=1且采用Global Average Pooling的时候，得到的是ResNet-50的Pool5特征）

图 4 LMP示意图

3. 实验探究

3.1 图像风格化结果

图5 不同模型图像风格相互迁移实例图

图5展示了不同模型在Marke和Duke图像之间风格相互迁移的效果图：(a)为输入图像、(b)为cyclegan模型的效果图、(c)为CycleGAN+Lide 效果图、(d)为SPGAN的效果图。可以看出Lide能使得Cyclegan在图像迁移的时候，保持图像的色彩组成。SPGAN生成的图像和输入图像更加相似。

另外就是用SPGAN对Market图像和Duke图像风格相互迁移效果图，如图6所示。视觉感受上，能把Market和Duke的图像风格进行一个图像风格上的相互迁移。

图6 SPGAN对Market和Duke图像风格相互转换效果图

3.2 实验分析

下面介绍作者的定量实验。作者在Market-1501和DukeMTMC-reID两个数据集合上做了行人重识别实验验证。

表1 Market和Duke跨域迁移性能对比表

从表1中，我们可以获取到很多信息，下面将相应阐述：

数据集合之间的dataset bias使得re-ID模型在跨数据集时的性能下降很剧烈

表1中，当Duke上训练的模型在Duke上测试的时候，rank-1 有66.7%，但是把Duke上训练的模型用在Market上测试的时候，性能只有43.1%。同样的情况也能从Market-->Duke上观察到；

Learning via Translation方法的有效性

通过对比Direct transfer，CycleGAN以及CycleGAN+Lide都有性能上的提升，这说明Learning via Translation的方式对于行人重识别任务是有效的。此外，CycleGAN+Lide相比于CycleGAN，在Duke上性能基本持平而在Market上性能表现更好一些，原因可能是Duke-->Market的时候难度稍微大一些，Lide能帮助模型去实现图像风格的转换。

SPGAN的有效性

相比于CycleGAN以及CycleGAN+Lide，SPGAN有者进一步的性能提升，这说明作者在训练CycleGAN的过程中加入Self-Similarity和Domain-Dissimilarity的有效性。另外作者还对公式3中的margin这个参数做了探究，发现m=2的时候性能会高一些，也就是要求负样本对距离要尽量远离。（当m=0的时候，相当于不考虑负样本对，这个时候loss退化到了content loss，作者没有进一步探究）

LMP能进一步提升行人重识别性能

可以看出LMP能使训练好的模型在性能上进一步提升。（作者在文中也对比了全监督和迁移学习情况下，LMP的有效性，发现LMP只对迁移学习的情况有效）

4. 小结

re-ID中的迁移学习

由于数据集合间的差异，在一个数据集合上训练好的re-ID模型在另外一个数据性能上下降很厉害；其次，re-ID数据的标定很耗费人力物力，那么让在已有标记数据上训练好的模型能够用于其他场景符合实际的需求。

迁移学习下的re-ID还是一个开放问题，期待更多工作对其进行相关研究；

Learning via Translation

作者针对re-ID的迁移学习，从图像风格转换角度构建了Learning via Translation的基础框架，并通过实验验证了该框架的有效性。此外，作者针对该框架的核心部分（第一步图像风格转换），提出了SPGAN，进一步提升框架的性能。那么，是否会存在其他re-ID迁移学习的解决方案呢？期待更多人回答。

论文：Image-Image Domain Adaptation with Preserved Self-Similarity and Domain-Dissimilarity for Person Re-identification

文章摘自Simon John，点击阅读全文，可以看到原文！

登录查看更多