ICML 2022 | 阿里达摩院灵瞳实验室：基于最大熵原理的目标检测搜索

2022 年 8 月 19 日 PaperWeekly

©作者 | 孙振鉷

单位 | 阿里达摩院灵瞳实验室

本文解读我们 ICML 2022 上发表的论文。这篇文章提出一种 基于最大熵原理的目标检测搜索方法：MAE-Det 。该方法通过计算最大特征的最大熵来代表网络的表达能力，代替训练网络来评估模型的最后性能，同时我们设计了多级维度的最大熵来适配检测任务的不同尺度下的表达能力。Training-free 的策略将我们的搜索成本降低接近零，在相同的 FLOPs 预算下，MAE-Det 可以为目标检测设计更好的特征提取器。

在仅仅一天的 GPU 全自动设计，MAE-DET 在多个检测基准数据集上刷新了检测主干网络的 SOTA 性能。与 ResNet-50 主干相比，在使用相同数量的 FLOP 和参数下，MAE-DET 在 mAP 中的性能提高了 +2.0%；在相同的 mAP 下，在 NVIDIA V100 上的推理速度提升 1.54 倍。

论文题目：

MAE-DET: Revisiting Maximum Entropy Principle in Zero-Shot NAS for Efficient Object Detection

论文链接：

https://arxiv.org/abs/2111.13336

代码链接：

https://github.com/alibaba/lightweight-neuralarchitecture-search

前言

在目标检测中，作为特征提取的主干网络消耗的推理成本占据总成本的一半以上。最近的研究试图通过借助神经结构搜索（NAS）来优化主干结构，从而降低这一块成本。然而，现有的 NAS 目标检测方法需要数百到数千个 GPU 小时的搜索，这使得它们在快节奏的研发中很不实用。

作为 NAS 方法的代表，DetNAS、SP-NAS 和 SpineNet 依旧采用训练评估 (Training-based) 的搜索方法，在搜索的过程需要通过训练来评估后续网络的性能。

DetNAS 使用 one-shot 的方法构建一个 SuperNet，从 SuperNet 中采样小的网络在数据集中评估，需要 68 个 GPU days 搜索出最佳的网络；SP-NAS 使用串并行的多层结构，通过进化算法随机迭代 block 进行筛选，可以在 26 个 GPU days 获得最佳的网络；SpineNet 将 backbone 的搜索和 FPN 的搜索结合在一起，搜索不同分辨率下的特征的排列组合，使用 100 块 TPUv3 最后获得搜索的网络。

虽然这些方法搜索的主干网络性能也超过 R50 的 baseline，但是 Training-based 的策略极大地消耗 GPU 资源，需要消耗几十天的 GPU 资源，而且只能用于较少迭代的网络的数量。

方法介绍

2.1 最大熵原理（Maximum Entropy Principle）

▲ 图2. 基于最大熵的原理计算公式

为了对网络架构进行细粒度分析，我们在系统搜索时只应用了 2D CNN，而不添加激活、BN 等辅助模块，这种结构是在深度学习早期提出的最简单的网络模型之一，在理论文献中被广泛用作原型分析。在最后的训练时会结合任务将这些辅助模块重新添加回来，来让训练性能最大化。具体来说，给定一个 2D 卷积网络，其中包含 L 层卷积核，如图 2 所示，最后一层的特征可以通过下面公式来表达：

我们将神经网络看作是一个信息系统，那么对于一个给定的输入，最后一个输出特征图的微分熵代表系统的最后的信息量。信息量可以由微分熵来表示，因此微分熵最大的模型结构的表达能力也应该是最强的。对于给定初始化的输入和权重，最后一个输出特征图的微分熵的分布具有确定的均值和方差。根据高斯熵上界定理，我们知道对于已知均值和方差的高维特征，当其符合高斯分布的时候，对应的微分熵最大，因此高斯微分熵代表了特征分布的信息上界。在计算微分熵时，高斯分布的微分熵只与方差正相关，而与均值无关，忽略掉一些常数，最后基于最大熵理论得出的系统的上限熵由下式给出：

其中，我们假设输入和权重都通过标准高斯初始化后，该公式可以通过每次的前向传播来计算，并且我们借鉴了 Zen-NAS 中使用的缩放机制用于应对数值溢出，最终的公式如图 2 所示。

2.2 目标检测的多级维度最大熵

相比于识别任务，检测任务更需要保证网络结构在不同尺度下的表达能力。如图 3 所示常见的目标检测模型由骨干网络（backbone）、特征金字塔网络 (FPN) 和头网络（head）构成。骨干网络会从三个维度 C3/C4/C5 来输出特征金字塔网络所需要的特征，因此如果仅仅像图 2 中算最后特征 C5 的 Score 而忽略 C3/C4 的特征的话，那么目标检测的骨干网络将不是最优的。

所以我们对 C3/C4/C5 3 个维度分别算每一个子网络的最大熵，最后通过权重来调节不同维度的表达能力，从而让整体网络表达能力达到最优，最后的多级信息熵用来评估检测特征提取器的总体表达能力。

▲ 图3. 基于多级维度的最大熵结构图

▲ 表2. 基于不同维度比例的FCOS下的3X训练结果

▲ 图4. 不同比例下的mAP与score的相关性

进一步我们在一个较宽的范围内调整多维度比例的选择。我们选择了七个不同权重比用于搜索不同的模型，所有模型都在 COCO 数据集上使用 FCOS 框架和 3x 训练策略。图 3 显示，如果 C3-C5 的权重相同，MAE-DET 在 COCO 上的性能比 ResNet-50 差。考虑到 C5 的重要性，我们增加了 C5 的权重，MAE-DET 的性能继续改善。

为了进一步探索 mAP 和分数之间的相关性，我们使用七个权重比来计算每个模型的不同分数，以及 0:0:1 的单一维度权重比。mAP 和不同分数之间的相关性如图 5 所示。根据图 4 和图 5 中的结果，我们确认 1:1:6 的比例对于当前的 FPN 结构可能足够好，适用于大部分的多级检测结构。

基于以上的方法，我们结合进化算法最终设计了 MAE-DET 用于检测骨干网络的搜索。

实验结果

3.1 Performance

我们搜索用于目标检测的与 ResNet-50/101 对齐的高效 MAE-DET 主干网络。MAE-DET-S 比 ResNet-50 使用更少 60% 的 FLOPs；MAE-DET-M 与 ResNet-50 一致，具有与 ResNet-50 类似的 FLOPs 和参数数量；MAE-DET-L 与 ResNet-101 对齐。

对于 MAE-DET-M 和 MAE-DET-L，FPN 和 heads 中的特征尺寸设置为 256，但对于 MAE-DET-S，设置为 192。在图 6 和图 7 中，MAE-DET 的表现大大优于 ResNet，且在三种检测框架的改进是一致的。特别是，当使用最新的框架 GFLV2 时，MAE-DET 在与 ResNet-50 类似的 FLOPs 情况下将 COCO mAP 提高了 +2%，并在与 ResNet-50 相同的精度下将推理速度提高了 1.54 倍。

3.2 其他的NAS方法

除了图 1 中的搜索效率的对比，为了进一步公平地比较相同训练设置下的不同主干，我们在图 7 中训练了由 MAE-DET 设计的主干和以前的主干 NAS 方法。由于 SP-NAS 的网络结构不是开源的，我们从头开始在 COCO 上重新培训 MAE-DET、DetNAS 和 SpineNet。图 8 表明 MAE-DET 在 COCO 上实现了与 DetNAS 和 SpineNet 相同的性能，但需要的参数更少，在 V100 上的推理速度更快。

3.3 多数据集和分割任务

▲ 表5. 在多数据集和实例分割任务重的结果

为了评估 MAE-DET 在不同数据集和不同任务中的可迁移性，我们将基于 FCOS 的 MAE-DET-M 转移到 VOC 和 Cityscapes 数据集中。如图 9 的上半部分所示，训练在 ImageNet 上预训练后，对模型进行了微调。与 ResNet-50 相比，MAE-DET-M 在 VOC 方面的 mAP 提高了 +4.1%，在 Cityscapes 方面的 mAP 提高了 +1.1%。

图 9 的的下半部分报告了 COCO 实例分段任务的 mask R-CNN 和 SCNet 模型的结果，训练采用 6X 从头训练策略。与 ResNet-50 相比，在模型大小和 FLOPs 近似的情况下，MAE-DET-M 在 mask R-CNN 和 SCNet 上实现了更好的 AP 和 mask AP。