CVPR 2022｜跨域检测新任务，北航、讯飞提出内生偏移自适应基准和噪声抑制网络

2022 年 3 月 9 日 机器之心

机器之心专栏

机器之心编辑部

一篇由北京航空航天大学、科大讯飞研究院共同完成的研究入选 CVPR 2022。

跨域检测任务有很多亟待解决的问题，也一直是学术界研究的焦点。目前的跨域检测方法主要研究外部环境引起的域间偏移，这种偏移通常是可以被肉眼感知的，例如晴天和雾天下的城市（著名的Cityscapes跨域数据集）。然而，在真实场景下，例如医学影像、X光安检场景等，还存在着另一种形式的域间偏移——内生偏移，这种偏移是由于内部因素引起的，例如成像原理、硬件参数、机器老化程度等，这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降，但是很少被研究者们关注到。

近日，计算机视觉顶级会议CVPR 2022接收论文结果已经正式公布，会议接收了一篇由北京航空航天大学、科大讯飞研究院共同完成的工作，论文题目为《Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network》（之后公布论文链接）。这项工作以X光安检场景为例，首先从域间偏移产生原因入手，分析由机器硬件参数等原因造成的域间内生偏移和常见的天气等外部原因造成的域间内生偏移的异同点。此外，该工作还构建了内生偏移自适应能力评估基准，并提出了噪声抑制网络，为跨域检测带来新的思考。

项目地址：https://github.com/DIG-Beihang/PSN

目前的跨域检测方法主要研究外部环境引起的域间偏移，这种偏移通常是可以被肉眼感知的，例如晴天和雾天下的城市（著名的 Cityscapes 跨域数据集）。然而，在真实场景下，例如医学影像、X 光安检场景等，还存在着另一种形式的域间偏移——内生偏移，这种偏移是由于内部因素引起的，例如成像原理、硬件参数、机器老化程度等，这种偏移通常很难被肉眼觉察。内生偏移能引起性能的剧烈下降，但是很少被研究者们关注到。

在本文中，研究者们以 X 光安检场景为例，首先从域间偏移产生原因入手，结合常见的自然场景变化，分析外生和内生域间偏移的异同点。然后展示研究者们构建的内生偏移自适应能力评估基准，以及噪声抑制网络，探索目标检测模型在复杂环境下由于感知设备变化导致的脆弱性问题，寻找不同类别物体的领域无关特征的最佳表征。

内生偏移自适应能力评估基准（EDS 数据集）

评估基准的构建对研究是必要的。现有跨域检测任务的数据集主要聚焦明显的域间偏移，而由机器硬件参数引起的难以察觉的域间偏移问题研究却缺乏专业数据集的支持。在本文中，研究者们选择了典型的 X 光安检场景——不同的 X 光机器由于设备的硬件参数和老化程度不同，在成像时存在内生偏移，导致危险品检测模型在不同的 X 光机器之间迁移时性能下降。在表 1 中，研究者们从不同场景、领域数量和支持的实验组数分别把 EDS 数据集和跨域检测任务下各种类型的数据集进行了对比。

表 1 EDS 数据集和传统跨域检测数据集对比

可以看出，EDS 在域的数量和支持实验的组数上都要高于传统的跨域检测数据集。并且，迄今为止目前还没有专业的高质量的数据集针对由机器硬件参数引起的难以察觉的域间偏移问题研究，因此，本数据集的提出是非常及时且必要的。

EDS 数据集包含了来自 3 台不同 X 光机器的 14219 张图片, 其中 10 类物品, 共计 31655 个目标实例，均由专业标注人员进行标注。图 1 展示了 10 类物品实物图和不同 X 光机器下的成像图，图 2 展示了 EDS 数据集中物品类别数量分布图。可以看出 EDS 数据集中物品类别数量分布较为均匀，每类物品目标数量均不少于 1000 个。

图 1 EDS 数据集中物品实物图和不同 X 光机器下的成像图

图 2 EDS 数据集中物品类别数量分布图

噪声抑制网络

为了克服内生偏移带来的跨域检测的性能损失，研究者们提出了噪声抑制网络。该网络从局部和全局两个角度，分别对类别相关（因类别不同而不同，主要指局部的实例区域）和类别无关（不随类别变化而变化，主要指全局的背景区域）两种不同类型的噪声进行抑制。这两种不同类型的噪声如图 3 所示。

图 3 两种不同类型的噪声（a 为类别相关噪声，b 为类别无关噪声）

噪声抑制网络的框架图如图 4 所示，它包括两个重要的子模块，分别是局部原型对齐和全局对抗同化。局部原型对齐模块主要针对类别相关噪声，全局对抗同化主要针对类别无关噪声。以下分别展开叙述。

图 4 噪声抑制网络的结构图

局部原型对齐

类别相关的噪声因类别不同而不同，主要指局部的实例区域。因此，研究者们对每一个类别的不同目标物体进行聚合操作，得到每个类别的原型。第一步，先对 RPN 网络提出的一个目标的所有 proposal 进行聚合，公式如下：

第二步，对每个类别的不同目标进行聚合，公式如下：

在不断的迭代过程中，不断更新类别原型库，公式如下：

最终，对两个域的特征原型进行对齐操作，公式如下：

全局对抗同化

类别无关噪声不随类别变化而变化，主要指全局的大面积的背景区域。因此，局部的特征对齐显然不适用于这种噪声。研究者们采用对抗学习的方法，通过网络的自动学习，将全局噪声抑制到最低程度。首先，研究者们将骨干网络输出的特征输送到分类器 1 中，然后利用 GRL 的梯度取反，引导骨干网络学习到类别无关的特征，公式如下：

然后，由于全局噪声不仅存在于空白区域，还存在于目标区域（目标区域是全局和局部的噪声累加），研究者们将聚合的类别原型特征也进行对抗学习，公式如下：

网络训练

网络总的损失函数可表示为：

整个网络的训练流程如下：

实验

实验设置

实验分别在内生偏移的场景（EDS 数据集）、外生偏移的场景（Cityscapes 数据集）和模拟噪声场景（在 Cityscapes 数据集上添加对抗噪声）和分离实验上进行了充分的验证。比较的模型包括已经开源的 CFA（CVPR 2020），CST（ECCV 2020），SWDA（CVPR 2019）等 SOTA 方法。

内生偏移的场景（EDS 数据集）

表 2 在 EDS 数据集上所有类别的平均精度

表 3 在 EDS 数据集上不同类别的平均精度

外生偏移的场景（Cityscapes 数据集）

表 4 在 Cityscapes→Foggy-Cityscapes 数据集上的表现

模拟噪声场景（Cityscapes 数据集上添加对抗噪声）

该研究在 Cityscapes 数据集上添加了两种对抗噪声来模拟这种肉眼难以观测的噪声（具体细节可查看原文），形成模拟数据集 1 和模拟数据集 2。然后研究者在 Cityscapes 数据集→模拟数据集 1、模拟数据集 1→模拟数据集 2、模拟数据集 2→模拟数据集 1 上分别进行了实验，实验结果如表 5 和 6 所示。

表 5 Cityscapes 数据集→模拟数据集 1 的实验结果

表 6 模拟数据集 1→模拟数据集 2 和模拟数据集 2→模拟数据集 1 的实验结果

分离实验

表 7 分离实验

总结

在本文中，来自北航、讯飞的研究人员首先构建了内生偏移自适应能力评估基准——EDS 数据集，该基准以 X 光安检场景为例，选取了 10 类常见的物品，分别在 3 台不同的 X 光机下形成不同的域。随后，研究人员提出的噪声抑制模型从局部和全局两个角度，分别对类别相关（因类别不同而不同，主要指局部的实例区域）和类别无关（不随类别变化而变化，主要指全局的背景区域）两种不同类型的噪声进行抑制。研究人员在该内生偏移的场景（EDS 数据集）、外生偏移的场景（Cityscapes 数据集）和模拟噪声场景（在 Cityscapes 数据集上添加对抗噪声）等场景下分别进行了大量的实验，全面客观地评估了所提出的噪声抑制模型对域间偏移的抑制能力。这项工作为跨域检测研究者们带来了新的思考。

团队相关工作

与传统视觉任务的训练样本不同，在真实开放的视觉场景下，诸如危险品安检、医学影像分析等，样本中广泛存在着环境变化、视角欠佳、目标干扰、取样困难等诸多难题。探索解决开放场景下的视觉任务难题有助于推动计算机视觉相关技术的发展，使得人工智能更好地服务人类社会。北京航空航天大学研究团队以典型的复杂视觉场景——“X光下的违禁品检测”为例，研究了场景变化多[1]、目标面积小[2]、样本内容缺[3]和样本数量少等典型难题，归纳总结了特征信号微弱和特征信号偏移两个关键挑战。并针对上述挑战开展了一系列研究，为复杂场景下的模型学习带来新的思考。

作者介绍

个人主页：https://rstao95.github.io/

陶仁帅，北京航空航天大学计算机学院博士研究生，师从李未院士和刘祥龙教授，主要研究方向为计算机视觉之复杂场景下的目标识别，具体工作包括去遮挡检测、不同尺度目标检测、域自适应检测、小样本检测等。已发表 CVPR、ICCV、ACM Multimedia、TMM、IJCAI 等顶级会议、期刊 10 篇（一作 / 通讯 6 篇），担任 CVPR、ECCV、ACM Multimedia、Pattern Recognition 等众多 CCF-A 类会议、期刊的审稿人，曾获博士研究生国家奖学金、北航探索奖学金等荣誉。

参考文献

[1]Renshuai Tao, Hainan Li, Tianbo Wang, Yanlu Wei, Yifu Ding, Bowei Jin, Hongping Zhi, Xianglong Liu, Aishan Liu. Exploring Endogenous Shift for Cross-domain Detection: A Large-scale Benchmark and Perturbation Suppression Network. IEEE CVPR 2022.

[2]Renshuai Tao, Yanlu Wei, Xiangjian Jiang, Hainan Li, Haotong Qin, Jiakai Wang, Yuqing Ma, Libo Zhang, Xianglong Liu. Towards Real-world X-ray Security Inspection: A High-Quality Benchmark And Lateral Inhibition Module For Prohibited Items Detection. IEEE ICCV 2021.

[3]Yanlu Wei*, Renshuai Tao* (equal contribution), Zhangjie Wu, Yuqing Ma, Libo Zhang, Xianglong Liu. Occluded Prohibited Items Detection: An X-ray Security Inspection Benchmark and De-occlusion Attention Module. ACM Multimedia 2020.