图 1 效果概览
动机
文章提出了一个针对物体具有大尺度变化数据集的检测算法。工作的研究动机在于:
图 4 retinanet结构
图 5
物体检测中,我们需要特征图同时具有较高的语义信息完成分类,又需要较好的保留原图信息用于定位,单一尺度的物体,在 backbone 中的不同 stage 可以提取出不同级别的语义,但是在处理另一尺度的物体时,则会出现不匹配的现象,如小物体用到的特征提取算子可能只是大物体提取低级特征算子,从而很难提取高级语义进行分类,这也启发了后来的 FPN 的 Top-down 结构,以及后续的一系列 feature fusing 的结构。
网络设计
如何改进特征金子塔使其具有更好的等变性质呢?
我们发现,在特征金子塔的某一层为基准,其与上下两层间具有更好的相关性,直觉上可以推测其底部一层往往保留有更多的定位相关的信息,更高层往往具有更好的分类相关的信息,而以往的 feature fusing 的方法都遗漏了这种空间尺度(特征金子塔层间)的相关性。
图 6 FPN 不同层间的相关性
无论是形式上的分析还是实验发现的这种相关性暗示我们尺度空间上确实有值得提取的特征,我们希望通过在尺度空间上进行卷积来提取这种特征。
考虑到 FPN 的不同层的分辨率不同,我们由此提出金字塔卷积(Pconv)的结构。
特征金字塔相邻三层(P3,P4,P5)举例,在 P3 上利用 stride 为 2 的 conv 进行卷积,在 P4 上利用普通 conv 卷积,P5 上普通 conv 卷积然后 upsample,得到相同大小的特征图然后相加,不难推导,其等效于在特征图上每一点在 HW 维度卷积后再在尺度空间(P3,P4,P5)进行一次卷积,因此其相当于一个 3-D 的卷积核。
可以看到,我们提出的模块在三个 model 上均有稳定的提升,并且性能提升相比 flops 与 forward 速度的增加极具性价比,值得注意的是,虽然我们使用了 Dconv,但是性能的提升不仅仅是 Dconv 带来的,相比 head 结构全部更换为 Dconv,我们的 SEPC 在速度与性能上都体现出了绝对的优势。
同时我们选取了 FreeAnchor 为基础与当前 SOTA 检测器进行了比较。
我们 SEPC 在 mAP45 左右的 baseline 上依然有接近 3mAP 的提升,我们在甚至在单尺度测试的条件下得到了一个 mAP 为 50.1 的单阶段检测器。
传送门
代码目前也已经开源,欢迎各位同学使用和交流。
论文地址: https://arxiv.org/pdf/2005.03101.pdf
代码地址: https://github.com/jshilong/SEPC
参考文献:
[1] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017.
[2]Golnaz Ghiasi, Tsung-Yi Lin, and Quoc V Le. Nas-fpn: Learning scalable feature pyramid architecture for object detection. In CVPR, 2019.
[3] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, 2017.
[4] Chenchen Zhu, Yihui He, and Marios Savvides. Feature selective anchor-free module for single-shot object detection. In CVPR, 2019.
[5] Xiaosong Zhang, Fang Wan, Chang Liu, Rongrong Ji, and Qixiang Ye. FreeAnchor: Learning to match anchors for visual object detection. In NIPS, 2019.
点击阅读原文,查看更多精彩!