The complex nature of combining localization and classification in object detection has resulted in the flourished development of methods. Previous works tried to improve the performance in various object detection heads but failed to present a unified view. In this paper, we present a novel dynamic head framework to unify object detection heads with attentions. By coherently combining multiple self-attention mechanisms between feature levels for scale-awareness, among spatial locations for spatial-awareness, and within output channels for task-awareness, the proposed approach significantly improves the representation ability of object detection heads without any computational overhead. Further experiments demonstrate that the effectiveness and efficiency of the proposed dynamic head on the COCO benchmark. With a standard ResNeXt-101-DCN backbone, we largely improve the performance over popular object detectors and achieve a new state-of-the-art at 54.0 AP. Furthermore, with latest transformer backbone and extra data, we can push current best COCO result to a new record at 60.6 AP. The code will be released at https://github.com/microsoft/DynamicHead.


翻译:将物体探测的本地化和分类结合起来的复杂性质已导致方法的蓬勃发展。以前的工作曾试图改进各种物体探测头的性能,但未能提出统一的观点。在本文件中,我们提出了一个新的动态头框架,将物体探测头与注意力统一起来。我们通过一致地将规模认知特征、空间认识空间位置和任务认知输出渠道之间的多重自留机制结合起来,拟议的方法大大提高了物体探测头在没有任何计算间接费用的情况下的代表性能力。进一步的实验表明,拟议的COCOCO基准动态头的效能和效率。用标准的ResNeXt-101-DCN骨干,我们大大改进了流行物体探测器的性能,在540 AP上实现了新的状态。此外,利用最新的变压器骨干和额外数据,我们可以将目前最佳COCO结果推向60.6 AP的新记录。该代码将在https://github.com/microcolft/Dynmicheadhead发布。

0
下载
关闭预览

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
20+阅读 · 2021年7月28日
专知会员服务
24+阅读 · 2021年5月23日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
大盘点 | 性能最强的目标检测算法
新智元
13+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
整合全部顶尖目标检测算法:FAIR开源Detectron
炼数成金订阅号
6+阅读 · 2018年1月25日
【资源】整合全部顶尖目标检测算法:FAIR开源Detectron
GAN生成式对抗网络
4+阅读 · 2018年1月24日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年4月17日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关VIP内容
专知会员服务
20+阅读 · 2021年7月28日
专知会员服务
24+阅读 · 2021年5月23日
专知会员服务
109+阅读 · 2020年3月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
大盘点 | 性能最强的目标检测算法
新智元
13+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Soft-NMS – Improving Object Detection With One Line of Code
统计学习与视觉计算组
6+阅读 · 2018年3月30日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
语义分割+视频分割开源代码集合
极市平台
35+阅读 · 2018年3月5日
整合全部顶尖目标检测算法:FAIR开源Detectron
炼数成金订阅号
6+阅读 · 2018年1月25日
【资源】整合全部顶尖目标检测算法:FAIR开源Detectron
GAN生成式对抗网络
4+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员