论文链接:https://arxiv.org/abs/2203.07669 代码链接:https://github.com/megvii-research/Iter-E2EDET
摘要 在遮挡(crowded)场景中,端到端的物体检测框架容易受到复杂遮挡的影响而出现重复检测,由此产生冗余检测框影响性能。为了解决这一问题,本文从 Sparse RCNN 这一端到端物体检测框架入手,发现早期基于查询的检测器大多受限于两个缺陷:1)对遮挡场景中同一个目标进行多次预测;2)检测性能与解码器的深度成正比。基于一对一的标签分配规则,本文提出了一种渐进式的端到端物体检测器,其原理是在在优化过程中仅选择倾向于真阳性预测(true positive prediction)的低分检测框进行后续的渐进式优化。实验结果表明,该方法在遮挡场景数据集CrowdHuman上性能 SOTA,在CityPersons和MSCOCO等常规检测数据集上也有显著的性能提升。