百度开源了一项即插即用的一阶段检测器模块,主要是对金字塔层级目标分布不平衡进行的探索,所提模型在COCO test-dev数据集上取得了截至目前最高的55.1AP指标(一阶段检测器)。>>加入极市CV技术交流群,走在计算机视觉的最前沿
文章链接:
https://arxiv.org/pdf/2109.07217.pdf
代码链接:
https://github.com/zimoqingfeng/UMOP
本文是百度的研究员在目标检测领域的最新力作,对一个被“遗忘”的地带(金字塔层级目标分布不平衡)进行了探索。首先,作者基于FPN架构对不同检测器的不同层级目标分布进行了分析并得出:不同层级目标分布确实存在Level Imbalance问题;基于所发现问题,从现有固定参数FocalLoss出发设计了一种新的PFL损失;与此同时,针对训练过程中难易样例的角色转换现象提出了渐进式动态调整超参的机制进行更进一步的改善。值得一提的是,所提UMOP一种“即插即用”、“无损涨点”的模块,它可以轻易的嵌入到现有一阶段检测器中并大幅提升检测性能,性能提升高达~1.5AP。不得不说,百度最近两年最detection方面的工作还是非常值得称道的,顶!
Abstract
在目标检测领域,多级预测(比如FPN、YOLO)与重采样技术(如Focal Loss、ATSS)极大的提升了一阶段检测器性能。然而,如何通过逐级优化特征金字塔提升性能尚未进行探索。我们发现:
在训练过程中,不同金字塔层级的正负样例比例是不同的,即存在Level Imbalance,而这尚未被一阶段检测器解决。
为缓解Level Imbalance影响,本文提出一种UMOP(Unified Multi-level Optimization Paradigm),它包含两个成分:
- 基于不同层级目标重采样考量,对每个层级特征添加独立分类损失进行监督
- 提出一种跨金字塔层级的难例挖掘损失,且不会引入额外的层级相关设置
基于所提即插即用UMOP机制,现有一阶段检测可以用更少的训练迭代次数取得~1.5AP指标提升,且不会导致额外的计算负担。
所得最佳模型在COCO test-dev数据集上取得了55.1AP指标。
-
本文首次证实:
FPN性能在某种程度上会受到Level Imbalanced影响;
-
集成与所提UMOP,现有一阶段检测器可以用更少的训练迭代次数取得~1.5AP指标提升,且不会导致额外的计算负担;
-
在COCO test-dev数据集上,最佳模型取得了截至目前最高的55.1AP指标(一阶段检测器)。
The Statistical on Level Imbalance
在目标检测领域,多级架构在一阶段检测器中被广泛应用并极大提升了检测性能。在SSD与YOLO系列中,多级预测框架通过提供更多的稠密候选显著提升了检测器性能。与SSD和YOLO不同,FPN还引入了自顶而下的路径进行特征聚合。接下来,
我们将从更广义视角对anchor-based与anchor-free检测的Level Imbalance问题进行确认。
The experiment settings on level imbalance不失一般性,我们分别以两种检测器(Anchor-based: RetineNet, ATSS, Anchor-free: FCOS, VFNet)进行分析,我们以MSCOCO作为基准数据,对C3-C5添加FPN生成P3-P7五种不同分辨率特征,见上图b和c。与此同时,我们固定所有其他设置以确保公平对比。
The statistical analysis on level imbalance 在分析过程中,我们精心的对不同层级的目标分布影响进行分析,同时确保图像分辨率与模型复杂度固定。
上图对比了不同检测器不同层级特征的目标分布,可以看到:
上述结果清晰的表明了:
多阶检测器存在Level Imbalance现象。因此,我们怀疑:
带固定超参的FocalLoss不能同时对所有金字塔层级做好最好均衡。
Unified Multi-level Optimization Paradigm
本文提出了UMOP以缓解一阶段检测器中的Level Imbalance问题。所提方法包含两部分:
-
Level-wise Resampling Paradigm(LRP),基于独立重采样考量,对每个金字塔层级设置不同的分类损失;
-
Progressive Focal Loss(PFL),它基于每个金字塔层级的正样例预测渐进的调整难例挖掘度。
Level-wise Resampling Paradigm
多阶段检测器通过迭代采样机制缓解不平衡现象,这种机制可以排查简单的低质采样,防止无匹配问题,进而提升预测质量。我们提出一种LRP,一种类似的框架,它基于灵活的难例度量提升一阶段检测器的高质量预测。
LRP是一种解决跨不同金字塔层级采样不平衡问题的多级优化框架,可见上图。在训练过程中,我们对每个金字塔层级独立的计算分类损失,定义如下:
该损失赋予了每个金字塔层级足够灵活性以适应特定的采样所面临的不平衡性。
Progressive Focal Loss
与此同时,我们还提出了PFL以自动调节每个金字塔层级的难例挖掘自由度。对于二分类来说,Sigmoid Focal Loss定义如下:
在原始损失中,
用于保持正负样例的梯度梯度,
则用于缓解正负样例不平衡。
从分而治之的角度出发,我们提出了一种新的动态超参调整策略,它可以按照每个金字塔层级的收敛位置动态调整上述超参。对于不同层级的不平衡性,真正需要的超参数hi完全不同的。
在训练阶段,早期的样例通常比较难训练,而在后期则相对容易。所提策略可以按照各自的收敛位置动态调整难例挖掘强度。所提PFL则满足上述特性,定义如下:
注:
类似于交叉熵损失,它能够自然的反映不同金字塔层级的收敛位置。为确保训练稳定性,超参数被截断在有效区间
,其中
为常熟。
如上图所示,PFL中的动态调整机制使得模型可以在早期聚焦难度,而当难例与简单样例无法判别时提升模型的判别能力。下图给出了UMOP的整个处理步骤,
UMOP可以作为一种即插即用模块嵌入到带多级结构的任意一阶段检测器中。
Experiments
上图给出ATSS+UMOP与其他检测器在COCO test-dev数据集上的性能对比,从中可以看拿到:相比其他需要长训练周期、大图像分辨率的高性能检测器,基于常规实验设置+常见图像分辨率,
所提ATSS+UMOP即可取得了55.1AP指标,大幅优于其他检测器。
Ablation Study
上图说明所了提方案的泛化性:
可以作为即插即用模块轻易嵌入到几乎所有一阶段检测中并提升性能。
对于RetinaNet-R50,UMOP可以将其性能从35.7提升到36.9;
对于RetinaNet-R101,UMLP可以将其性能从38.9提升到40.5;
对于ATSS-R50,UMOP可以将其性能从39.3提升到40.4;
对于ATSS-R101,UMOP可以将其性能从46.1提升到47.6;
上图给出了基于UMOP训练的ATSS与常规训练的检测效果对比,所提方案的泛化性极好,可以解决模糊目标检测、遮挡目标、小目标、极限比例目标等常见难例问题。
上表对所提方案的收敛性进行了分析对比,从中可以看到:原始ATSS需要24epoch达到收敛,而
装备上UMOP后仅需18epoch即可取得更高的指标,性能提升1.4dB。
本文亮点总结
1.
为缓解Level Imbalance影响,本文提出一种UMOP(Unified Multi-level Optimization Paradigm),它包含两个成分:
本文首次证实:FPN性能在某种程度上会受到Level Imbalanced影响;
集成与所提UMOP,现有一阶段检测器可以用更少的训练迭代次数取得~1.5AP指标提升,且不会导致额外的计算负担;
在COCO test-dev数据集上,最佳模型取得了截至目前最高的55.1AP指标(一阶段检测器)。
公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载~
AIWalker运营、CV技术深度Follower、爱造各种轮子
研究领域:专注low-level,对CNN、Transformer、MLP等前沿网络架构保持学习心态,倾心于AI技术产品化。
公众号:AIWalker
作品精选
添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿
觉得有用麻烦给个在看啦~