ICML 2022 | 阿里达摩院灵瞳实验室:基于最大熵原理的目标检测搜索

2022 年 8 月 19 日 PaperWeekly


©作者 | 孙振鉷

单位 | 阿里达摩院灵瞳实验室


本文解读我们 ICML 2022 上发表的论文。这篇文章提出一种 基于最大熵原理的目标检测搜索方法:MAE-Det 。该方法通过计算最大特征的最大熵来代表网络的表达能力,代替训练网络来评估模型的最后性能,同时我们设计了多级维度的最大熵来适配检测任务的不同尺度下的表达能力。Training-free 的策略将我们的搜索成本降低接近零,在相同的 FLOPs 预算下,MAE-Det 可以为目标检测设计更好的特征提取器。

在仅仅一天的 GPU 全自动设计,MAE-DET 在多个检测基准数据集上刷新了检测主干网络的 SOTA 性能。与 ResNet-50 主干相比,在使用相同数量的 FLOP 和参数下,MAE-DET 在 mAP 中的性能提高了 +2.0%;在相同的 mAP 下,在 NVIDIA V100 上的推理速度提升 1.54 倍。


论文题目:
MAE-DET: Revisiting Maximum Entropy Principle in Zero-Shot NAS for Efficient Object Detection

论文链接:

https://arxiv.org/abs/2111.13336

代码链接:

https://github.com/alibaba/lightweight-neuralarchitecture-search




前言


在目标检测中,作为特征提取的主干网络消耗的推理成本占据总成本的一半以上。最近的研究试图通过借助神经结构搜索(NAS)来优化主干结构,从而降低这一块成本。然而,现有的 NAS 目标检测方法需要数百到数千个 GPU 小时的搜索,这使得它们在快节奏的研发中很不实用。


 表1. 现有方法搜索效率对比


作为 NAS 方法的代表,DetNAS、SP-NAS 和 SpineNet 依旧采用训练评估 (Training-based) 的搜索方法,在搜索的过程需要通过训练来评估后续网络的性能。

DetNAS 使用 one-shot 的方法构建一个 SuperNet,从 SuperNet 中采样小的网络在数据集中评估,需要 68 个 GPU days 搜索出最佳的网络;SP-NAS 使用串并行的多层结构,通过进化算法随机迭代 block 进行筛选,可以在 26 个 GPU days 获得最佳的网络;SpineNet 将 backbone 的搜索和 FPN 的搜索结合在一起,搜索不同分辨率下的特征的排列组合,使用 100 块 TPUv3 最后获得搜索的网络。

虽然这些方法搜索的主干网络性能也超过 R50 的 baseline,但是 Training-based 的策略极大地消耗 GPU 资源,需要消耗几十天的 GPU 资源,而且只能用于较少迭代的网络的数量。



方法介绍


2.1 最大熵原理(Maximum Entropy Principle)


 图2. 基于最大熵的原理计算公式


为了对网络架构进行细粒度分析,我们在系统搜索时只应用了 2D CNN,而不添加激活、BN 等辅助模块,这种结构是在深度学习早期提出的最简单的网络模型之一,在理论文献中被广泛用作原型分析。在最后的训练时会结合任务将这些辅助模块重新添加回来,来让训练性能最大化。具体来说,给定一个 2D 卷积网络,其中包含 L 层卷积核,如图 2 所示,最后一层的特征可以通过下面公式来表达:


我们将神经网络看作是一个信息系统,那么对于一个给定的输入,最后一个输出特征图的微分熵代表系统的最后的信息量。信息量可以由微分熵来表示,因此微分熵最大的模型结构的表达能力也应该是最强的。对于给定初始化的输入和权重,最后一个输出特征图的微分熵的分布具有确定的均值和方差。根据高斯熵上界定理,我们知道对于已知均值和方差的高维特征,当其符合高斯分布的时候,对应的微分熵最大,因此高斯微分熵代表了特征分布的信息上界。在计算微分熵时,高斯分布的微分熵只与方差正相关,而与均值无关,忽略掉一些常数,最后基于最大熵理论得出的系统的上限熵由下式给出:


其中,我们假设输入和权重都通过标准高斯初始化后,该公式可以通过每次的前向传播来计算,并且我们借鉴了 Zen-NAS 中使用的缩放机制用于应对数值溢出,最终的公式如图 2 所示。

2.2 目标检测的多级维度最大熵


相比于识别任务,检测任务更需要保证网络结构在不同尺度下的表达能力。如图 3 所示常见的目标检测模型由骨干网络(backbone)、特征金字塔网络 (FPN) 和头网络(head)构成。骨干网络会从三个维度 C3/C4/C5 来输出特征金字塔网络所需要的特征,因此如果仅仅像图 2 中算最后特征 C5 的 Score 而忽略 C3/C4 的特征的话,那么目标检测的骨干网络将不是最优的。

所以我们对 C3/C4/C5 3 个维度分别算每一个子网络的最大熵,最后通过权重来调节不同维度的表达能力,从而让整体网络表达能力达到最优,最后的多级信息熵用来评估检测特征提取器的总体表达能力。

 图3. 基于多级维度的最大熵结构图


 表2. 基于不同维度比例的FCOS下的3X训练结果


 图4. 不同比例下的mAP与score的相关性

进一步我们在一个较宽的范围内调整多维度比例的选择。我们选择了七个不同权重比用于搜索不同的模型,所有模型都在 COCO 数据集上使用 FCOS 框架和 3x 训练策略。图 3 显示,如果 C3-C5 的权重相同,MAE-DET 在 COCO 上的性能比 ResNet-50 差。考虑到 C5 的重要性,我们增加了 C5 的权重,MAE-DET 的性能继续改善。

为了进一步探索 mAP 和分数之间的相关性,我们使用七个权重比来计算每个模型的不同分数,以及 0:0:1 的单一维度权重比。mAP 和不同分数之间的相关性如图 5 所示。根据图 4 和图 5 中的结果,我们确认 1:1:6 的比例对于当前的 FPN 结构可能足够好,适用于大部分的多级检测结构。

基于以上的方法,我们结合进化算法最终设计了 MAE-DET 用于检测骨干网络的搜索。



实验结果


3.1 Performance


 表3. MAE-DET在不同框架下雨R50的比较结果


 图5.1 MAE-DET在不同框架下与R50的性能比较


 图5.2 MAE-DET在不同框架下与R50的性能比较


我们搜索用于目标检测的与 ResNet-50/101 对齐的高效 MAE-DET 主干网络。MAE-DET-S 比 ResNet-50 使用更少 60% 的 FLOPs;MAE-DET-M 与 ResNet-50 一致,具有与 ResNet-50 类似的 FLOPs 和参数数量;MAE-DET-L 与 ResNet-101 对齐。


对于 MAE-DET-M 和 MAE-DET-L,FPN 和 heads 中的特征尺寸设置为 256,但对于 MAE-DET-S,设置为 192。在图 6 和图 7 中,MAE-DET 的表现大大优于 ResNet,且在三种检测框架的改进是一致的。特别是,当使用最新的框架 GFLV2 时,MAE-DET 在与 ResNet-50 类似的 FLOPs 情况下将 COCO mAP 提高了 +2%,并在与 ResNet-50 相同的精度下将推理速度提高了 1.54 倍。


3.2 其他的NAS方法



 表4. 在相同训练条件下比较其他NAS方法搜索到的结构


除了图 1 中的搜索效率的对比,为了进一步公平地比较相同训练设置下的不同主干,我们在图 7 中训练了由 MAE-DET 设计的主干和以前的主干 NAS 方法。由于 SP-NAS 的网络结构不是开源的,我们从头开始在 COCO 上重新培训 MAE-DET、DetNAS 和 SpineNet。图 8 表明 MAE-DET 在 COCO 上实现了与 DetNAS 和 SpineNet 相同的性能,但需要的参数更少,在 V100 上的推理速度更快。

3.3 多数据集和分割任务


 表5. 在多数据集和实例分割任务重的结果


为了评估 MAE-DET 在不同数据集和不同任务中的可迁移性,我们将基于 FCOS 的 MAE-DET-M 转移到 VOC 和 Cityscapes 数据集中。如图 9 的上半部分所示,训练在 ImageNet 上预训练后,对模型进行了微调。与 ResNet-50 相比,MAE-DET-M 在 VOC 方面的 mAP 提高了 +4.1%,在 Cityscapes 方面的 mAP 提高了 +1.1%。

图 9 的的下半部分报告了 COCO 实例分段任务的 mask R-CNN 和 SCNet 模型的结果,训练采用 6X 从头训练策略。与 ResNet-50 相比,在模型大小和 FLOPs 近似的情况下,MAE-DET-M 在 mask R-CNN 和 SCNet 上实现了更好的 AP 和 mask AP。



总结


本方法具有以下的优点:

1. 我们在目标检测中重新讨论了最大熵原理,并提出了 MAE-DET 的网络搜索方法,在没有复杂结构点缀的情况下提供了优异的性能。 

2. 在目标检测中,MAE-DET 是第一种 Training-free 的 NAS 方法,搜索的结构在多个检测框架下和多个基准数据集中均获得了 SOTA 性能。

3. MAE-DET 使用不到一天的 GPU 和 2GB 的内存,在 COCO 上实现了比其他 NAS 方法搜索快至少 50 倍的竞争性能。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

登录查看更多
1

相关内容

掩码自编码MAE
专知会员服务
16+阅读 · 2021年8月4日
专知会员服务
24+阅读 · 2021年7月11日
专知会员服务
116+阅读 · 2021年4月29日
【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
13+阅读 · 2021年3月14日
专知会员服务
56+阅读 · 2021年2月12日
近期必读的六篇 ICML 2020【对比学习】相关论文
专知会员服务
56+阅读 · 2020年9月15日
ECCV 2022 | 港中文MMLab:基于Transformer的光流
PaperWeekly
0+阅读 · 2022年9月2日
ICCV 2021 | 带你了解微软亚洲研究院CV领域前沿进展
微软研究院AI头条
0+阅读 · 2021年10月13日
干货 | 基于深度学习的目标检测算法综述(二)
AI科技评论
21+阅读 · 2018年8月20日
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年11月23日
Arxiv
19+阅读 · 2022年10月6日
Arxiv
44+阅读 · 2022年9月6日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
27+阅读 · 2020年12月24日
VIP会员
相关VIP内容
专知会员服务
16+阅读 · 2021年8月4日
专知会员服务
24+阅读 · 2021年7月11日
专知会员服务
116+阅读 · 2021年4月29日
【CVPR2021】面向视频动作分割的高效网络结构搜索
专知会员服务
13+阅读 · 2021年3月14日
专知会员服务
56+阅读 · 2021年2月12日
近期必读的六篇 ICML 2020【对比学习】相关论文
专知会员服务
56+阅读 · 2020年9月15日
相关基金
国家自然科学基金
10+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员