ECCV 2020｜全新行人ReID域适应联合学习框架，达到SOTA效果！

2020 年 8 月 18 日 AI科技评论

作者 | Barack

编辑 | 陈彩娴

本文带来的是ECCV 2020 Oral 论文《Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification》，提出一种全新的联合学习框架，首先对原始行人特征进行解藕，得到身份敏感信息（id-related）和身份无关特征（id-unrelated），其后在域适应阶段中将id不相关特征进行剔除，有效提升了跨域行人ReID的性能。

论文链接：https://arxiv.org/abs/2007.10315

动机

无监督域适应方法（UDA）已被广泛应用在跨域行人ReID问题上，不同的行人ReID数据集可能会在季节（行人着装）、背景、视角、光照和相机等方面有一定的差异，这会导致模型在新domain上的识别性能大打折扣。针对行人ReID的UDA方法依然遵循传统的设计原则，那就是要最大限度的缩小源域（source domain）和目标域（target domain）的差距，但是这类方法在自适应的过程中会同时包括id相关和id不相关的特征，而id不相关特征会干扰和限制域自适应的过程，如果能将这一部分特征剔除，让域适应专注于id相关特征，无疑能提高域适应的效果，本文基于此提出了特征解藕（Disentangling）和域适应（Adaptation）联合学习框架。

方法

本文方法可以看作是对DG-Net的改进版本，DG-Net发表在CVPR2019上，在单域空间内对特征进行解藕，通过对id相关特征进行加强生成更多的行人数据来训练模型，本文在此基础上将潜在的特征空间分为三部分：shared appearance space（外观特征，用来捕捉id相关信息），source structure space（空间结构特征，用来表示视角、姿态等id不相关特征），target structure space（目标结构空间），模型命名为DG-Net++。

由于目标域缺乏标签，同时对id不相关特征也没有明确的定义，直接进行特征解藕具有一定的难度，作者巧妙的引入了循环一致性图像生成任务（cycle-consistency generation），让网络自动区分两种特征，同时只在id相关特征构成的特征空间中执行域适应，图像生成任务由循环一致损失和交叉熵损失监督，图像生成的质量越高，特征解藕的效果就越好，域适应过程也就更容易。

网络结构

注：图中虚线箭头表示对输入图像进行灰度处理后输入到下一模块。

上图为网络示意图，整体呈现对称性：

E_app:参数共享，用来提取id相关特征，在模型测试阶段时，只需保留该模块。

E_str:参数不共享，用来提取两个域各自的id不相关特征，也可以看做是提取域本身的结构特征。

G^s,G^t:参数不共享，目标域和源域的图像生成器，接收对应域的结构特征和id不相关特征将图像转换到对应域。

D_dom:参数共享，域判别器，用来区分id特征是来自源域还是目标域。

D_img:参数共享，用来判别图像是生成图像还是真实图像。

上图中源域图像的id相关特征与目标域的id不相关特征进行重组，生成的行人图像带有源域的外观（红色衣服）和目标域的视角和姿态（侧身行走），其后再将该生成图像的特征进行下一步重组又可以转换到原图，这种循环一致生成方式可以将id相关特征和id不相关特征清楚的划分。

损失函数

1、跨域生成

网络的输入是一个图像对，分别来自源域和目标域，首先将两张图像的分离特征进行重组，由于缺乏生成图像的ground truth，这里引入了循环一致性损失和交叉熵损失。

循环一致性损失用来保证图像的生成质量，上式中G(E_app(x), E_str(x))分别表示特征重组后的生成图像。

交叉熵损失用来监督E_app产生id相关特征，其中L^s1表示原始输入图像的交叉熵损失，L^s2表示生成图像的交叉熵损失，L^s2促使E_app在训练过程中不仅要额外关注id相关特征，还要尽可能的保证id相关特征的域无关性。

上式为标准的图像对抗损失，用来拉近真实图像与生成图像的特征分布，其中D_img是参数共享的，其会直接驱动E_app生成domain-invariant的特征。

2、域适应模块

本文的域适应使用了较为熟悉的特征分布对齐(feature-level alignment)和自监督生成伪标签（target label assignment）方法。

其中特征分布对齐使用对抗学习方式，上式为domain的判别器损失。为了消除两个domain之间的差异，需要保证E_app产生的id相关特征是域无关的，也就是说对于同一id的图像，不论它来自源域还是目标域，E_app都可以提取到相似的特征。

此外，作者还使用聚类方法对目标域的图像生成伪标签，并以迭代的方式不断微调网络。

3、优化

作者联合训练域共享id特征编码器、图像判别器、域判别器、源和目标结构编码器、源和目标解码器，以优化总目标，即以下损失项的加权和：

实验结果

1、SOTA实验对比

作者对目前较为流行的三个行人ReID数据集上做了域适应实验，分别是清华大学的Market-1501、杜克大学的DuckMTMC-reID和北京大学的MSMT17，构成了六个域适应对。

分别与现有的无监督域适应方法进行了对比，可以看到本文的方法有明显的提升，同时作者还强调本文的特征解藕模块可以应用到其他的域适应方法中来提高性能。

2、消融研究

消融实验更加清晰的展示了本文两个模块的作用，单独添加特征解藕模块可以对baseline模型提升4个百分点左右，这表明即便没有进行域适应，通过特征解藕将id无关特征剔除也可以提高模型的跨域能力。

相辅相成的特征解耦和域适应

特征解藕具有一定的可解释性，常常被用来探究单一因素对数据整体的影响，对特征向量进行维度拆分，给每个维度赋予一种语义，可以提高整体特征的紧凑程度。

本文的核心是在域适应过程中减少id相关特征的干扰，循环一致性图像生成任务帮助特征解藕模块得到了具有明确语义的id相关特征和域结构特征，这可以让我们很轻松的将域无关的特征剔除，为域适应中重点关注id相关特征提供了便利，此外，域适应过程中的对抗训练，尤其是域判别器，也会帮助网络寻找到与域结构无关的id相关特征，从而促进特征解藕。

总结

在这篇论文中，作者提出了一个联合学习的框架，它可以解耦id相关和id不相关的因素，并且只在id相关的特征空间上进行自适应。本文的两个子任务，跨域循环一致性图像生成和对抗性特征对齐是共同设计的，这样在联合训练中，特征解藕和自适应模块可以相互促进。实验结果表明，作者提出的方法能够带来显著的性能提升。最后作者希望提出的方法能启发更多在无监督跨域ReID领域的特征解藕和自适应的工作。