极市导读
本文是阿里巴巴在目标检测领域的工作(已被ICLR2022接收),提出了一种新颖的类“长颈鹿”的GiraffeDet架构,它采用了轻骨干、重Neck的架构设计范式。所提GiraffeDet在COCO数据集上取得了比常规CNN骨干更优异的性能,取得了54.1%mAP指标,具有更优异的处理目标大尺度变化问题的能力。
论文链接:https://arxiv.org/abs/2202.04256
ICLR2022:
https://openreview.net/forum?id=cBu4ElJfneV
常规目标检测方案往往采用重骨干+轻Neck模式,即骨干部分的计算量占据主导地位(这种设计源自历史遗留问题,即骨干网络往往需要从图像识别模型进行迁移,而非针对目标检测进行端到端设计)。这种检测架构设计会导致次优性能。
为此,我们提出了一种新的重Neck架构GiraffeDet(类长颈鹿网络)用于高效目标检测,GiraffeDet采用超轻量骨干与非常深且大的Neck模块。这种设计范式允许检测器即使在网络早期阶段也能够以相同的优先级处理高层语义信息与底层空间信息,使其对检测而言更为高效。多主流检测基准数据集上的结果表明:相比其他SOTA模型,GiraffeDet在不同资源约束下均能取得一致的性能优势。
本文的出发点有两个:
为达成更高效、更充分的多尺度信息交换,本文提出了GiraffeDet用于高效目标检测,giraffe包含轻量space-to-depth chain、Generalized-FPN以及预测网络,整体架构如上图所示,它延续了一阶段检测设计范式。
大多特征金字塔网络以常规CNN骨干提取的多尺度特征为基础上进行特征融合。然而,随着CNN的发展,骨干网络变得越来越大,计算量越来越高。此外,这些骨干网网络采用ImageNet进行预训练。我们认为:这些预训练骨干并不是哟用于检测任务,仍存在域漂移(domain-shift)问题。另外,FPN更多聚焦于高层语义信息与底层空域信息的交互。因此,我们认为:相比常规骨干,FPN在检测模型中的作用更为重要。
受启发于PiexelShuffle与FRVSR,我们提出了Space-to-Depth Chain(S2D Chain)作为轻量骨干网络,它包含两个 卷积与堆叠S2D-chain模块。具体来说, 卷积用于初始的下采样并引入更多非线性变换;每个S2D-chain模块包含一个S2D层与一个 卷积。S2D将更多的空域信息移动到深度维度,同时可以起到无参下采样作用。然后采用 卷积提供通道相关池化以生成固定维度特征。下图给出了本文基于S2D模块所设计的轻量型骨干架构示意图。
FPN旨在对CNN骨干网络提取的不同分辨率的多尺度特征进行融合。上图给出了FPN的进化,从最初的FPN到PANet再到BiFPN。我们注意到:这些FPN架构仅聚焦于特征融合,缺少了块内连接。因此,我们设计了一种新的路径融合:包含跳层与跨尺度连接,见上图d。
Skip-layer Connection 相比其他连接方法,在反向传播过程中跳过连接具有更短的距离。为避免GiraffeDet的重Neck设计的梯度消失问题,我们提出了一种特征连接方案:稠密连接与 连接,见上图。
相比稠密连接,所提 -link的复杂度为 ,而非 。此外,在反向传播过程中, -link仅将最短距离从1提升到了 。因此, -link可以扩展到更深的网络。
Cross-scale Connection 基于所提假设,我们设计的充分信息交互应当不仅包含跳层连接,同时还包含跨尺连接以克服大尺度变化。因此,我们提出一种新的跨尺度融合Queen-fusion,见上图b。注:我们采用双线性插值与最大值池化进行特征上采样与下采样。
在极限大尺度变化场景下,它需要模型能充分进行高层与底层信息交互。基于跳层与跨尺度连接机制,所提GFPN能够尽可能扩展,类似于Giraffe Neck。基于这种的重Neck与轻骨干设计,所提GiraffeDet可以更好的平衡高精度与高效率。
按照所提S2D-chain与GFPN,我们开发了一类GiraffeDet模型以满足不同资源约束。已有方案通过对骨干进行缩放调整模型大小,而GiraffeDet则聚焦于调整Neck部分。具体来说,我们采用两个系数 调整GFPN的深度与宽度:
上表给出了本文所设计的不同大小的GiraffeDet缩放系数信息,它们具有与ResNet系列模型相当的FLOPs。下图还给出了S2D chain-BiFPN-D29以及S2D-chain GFPN-D11的架构示意图(这里的Neck部分的箭头连接好像有点问题)。
在具体实现方面,GiraffeDet采用了GFocalV2作为检测头,采用ATSS进行标签分配。为增强从头开始训练的稳定性,我们采用了多尺度训练。相关训练超参见上表。
上表给出了所提GiraffeDet与其他方案的性能对比,从中可以看到:
从上图可以看到:所提GiraffeDet在不同像素尺度范围均取得了最佳性能,这意味着:轻骨干+重Neck的设计可以更有效的解决大尺度变化问题。同时,受益于跳层与跨尺度拦截,高层语义信息与底层空域信息可以进行更充分的信息交互。在0-32尺度下,GiraffeDet比RetinaNet指标高5.7%mAP;在80-144尺度下,GiraffeDet同样高出5.7%mAP;在192-256尺度下,所提GiraffeDet仍超越了其他检测方案。这说明:GiraffeDet可以更有效的学习尺度敏感特征。
GiraffeDet的成功源自架构的设计以及每个模块的技术升级。为更好的分析GiraffeDet每个模块的作用,我们进行了一系列消融实验。
Connection Analysis 上表对比了Neck部分不同连接方式的性能对比,从中可以看到:
上表从Neck的深度与宽度角度进行了对比分析,从中可以看到:所提GFPN在不同深度与宽度水平均优于FPN,这说明:log2n连接与Queen-fusion可以更有效的提供信息传递与交互。
在同FLOPs水平下,上图比较了不同Neck深度与不同骨干的性能,可以看到:
从上表5可以看到:当引入DCN后,GiraffeDet的性能可以进一步提升,GiraffeDet-D11+DCN甚至可以取得比GiraffeDet-D16更优的性能;
从上表6可以看到:在相当推理速度下,GFPN-tiny搭配DCN增强骨干时可以改善模型性能;随GFPN的深度提升,模型性能可以进一步提升;
上图与表给出了同等FLOPs水平下所提GiraffeDet与ResNet-FPN-GFocalV2的速度-性能对比,从中可以看到:
上表对比了骨干为ResNet18时不同Neck的性能,可以看到:
最后附上不同检测器检测效果对比,从中可以看到:总而言之,所有方法都能从图像中检测到实例。但是,GiraffeDet可以检测到更多实例,尤其在小目标检测方面表现更佳。这进一步验证了所提GFPN架构在目标大尺度变化方面的优秀处理能力。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“目标检测” 就可以获取《目标检测专知资料合集》专知下载链接