加入极市专业CV交流群,与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度 等名校名企视觉开发者互动交流!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台 公众号 ,回复 加群,立刻申请入群~
就在明天,由金连文、郑伟诗教授主持的CSIG-广东省CVPR 2020论文预交流在线学术报告会将在极市平台独家直播:5月16日08:50~17:10,超硬核的12位CVPR2020论文一作汇报分享,涵盖分类/分割/ReID等多个热门方向,详情戳这里,在极市平台后台回复“56”,即可获取直播链接。
论文地址:
https://arxiv.org/pdf/2005.03101.pdf
代码地址:
https://github.com/jshilong/SEPC
文章提出了一个针对物体具有大尺度变化数据集的检测算法。工作的研究动机在于:
关于高斯金字塔的等变性质,可以结合下面一个示例为大家展示这种性质:
图2图3中,一张图中有两只尺度比例大概为2的羊,有一个可以检测羊嘴的特征提取器,但是其仅能对尺度较小的羊的羊嘴具有较高的响应,那么对于尺度较大的羊我们应该如何处理呢?
这两种方法不仅符合直觉,其在数字信号处理理论中有较为完善的理论论证,在此不再赘述。
回想单阶段检测器(如RetinaNet),其共享权重的HEAD(Subnet)设计其实已经将特征金字塔中的特征当作了高斯金字塔,即假设特征金子塔也有上述尺度等变性质。
但是实际使用中,我们经常观察到不同尺度的物体相互竞争,使得检测器在不同尺度的性能此高彼低的现象,这些情况不太符合尺度等变特性,这是为什么呢?
相比高斯金字塔,从Backbone的不同Stage抽取特征图组成的的特征金字塔其实失去了严格的等变性。
关于不同尺度物体的竞争:
物体检测中,我们需要特征图同时具有较高的语义信息完成分类,又需要较好的保留原图信息用于定位,单一尺度的物体,在Backbone中的不同Stage可以提取出不同级别的语义,但是在处理另一尺度的物体时,则会出现不匹配的现象,如小物体用到的特征提取算子可能只是大物体提取低级特征算子,从而很难提取高级语义进行分类,这也启发了后来的FPN的Top-down结构,以及后续的一系列Feature Fusing的结构。
如何改进特征金子塔使其具有更好的等变性质呢?
我们发现,在特征金子塔的某一层为基准,其与上下两层间具有更好的相关性,直觉上可以推测其底部一层往往保留有更多的定位相关的信息,更高层往往具有更好的分类相关的信息,而以往的Feature Fusing的方法都遗漏了这种空间尺度(特征金子塔层间)的相关性。
无论是形式上的分析还是实验发现的这种相关性暗示我们尺度空间上确实有值得提取的特征,我们希望通过在尺度空间上进行卷积来提取这种特征。
考虑到FPN的不同层的分辨率不同,我们由此提出金字塔卷积(Pconv)的结构。
特征金字塔相邻三层(P3,P4,P5)举例,在P3上利用stride为2的conv进行卷积,在P4上利用普通conv卷积,P5上普通conv卷积然后upsample,得到相同大小的特征图然后相加,不难推导,其等效于在特征图上每一点在HW维度卷积后再在尺度空间(P3,P4,P5)进行一次卷积,因此其相当于一个3-D的卷积核。
既然有了尺度空间的卷积,我们自然的想到了空间尺度共享所有参数的批归一化(iBN),我们每一次Pconv后,我们将所有层连接在一起,共同更新统计量,这一设计较NAS-FPN[2]中使用的各尺度用各自的BN参数具有更优的性能且更易工程化(如推理时去除BN)。
另一方面,高斯金子塔中特征相邻层降采样时有其相匹配的高斯模糊核,太大的模糊核会去除过多有用信息,太小的模糊核引入高频噪声。但是特征金字塔中相邻层之间间隔不同的卷积核与大量的非线性单元,这使得特征图上不同位置相邻层之间没有一个固定的理论高斯模糊核。因此我们由此基于以上提出的Pconv又将其改进为尺度等化的尺度空间卷积(SEPC)模块:当尺度空间卷积核在尺度空间上滑动时,最底层上用普通的3X3卷积,当相同的卷积核滑向高层特征图时用可变形卷积(Dconv)[3]实现像在高斯金字塔中一样的高层特征点与最底层的对齐。同时这个设计中可变形卷积只在高层特征图上采用,其引入的额外的Dconv的计算量开销以及推理速度损失其实是很小的。
我们做了详尽的消融实验,以确保我们每个模块的有效性.我们选取了FSAF[4],RetinaNet,FreeAnchor[5]三个有代表性的model验证我们的有效性。
可以看到,我们提出的模块在三个model上均有稳定的提升,并且性能提升相比flops与forward速度的增加极具性价比,值得注意的是,虽然我们使用了Dconv,但是性能的提升不仅仅是Dconv带来的,相比head结构全部更换为Dconv,我们的SEPC在速度与性能上都体现出了绝对的优势。
同时我们选取了FreeAnchor为基础与当前SOTA检测器进行了比较。
我们SEPC在mAP45左右的baseline上依然有接近3mAP的提升,我们在甚至在单尺度测试的条件下得到了一个mAP为50.1的单阶段检测器。
参考
添加极市小助手微信(ID : cv-mart),备注:研究方向-姓名-学校/公司-城市(如:AI移动应用-小极-北大-深圳),即可申请加入AI移动应用极市技术交流群,更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流,一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台,获取最新CV干货
觉得有用麻烦给个在看啦~