Transformers are transforming the landscape of computer vision, especially for recognition tasks. Detection transformers are the first fully end-to-end learning systems for object detection, while vision transformers are the first fully transformer-based architecture for image classification. In this paper, we integrate Vision and Detection Transformers (ViDT) to build an effective and efficient object detector. ViDT introduces a reconfigured attention module to extend the recent Swin Transformer to be a standalone object detector, followed by a computationally efficient transformer decoder that exploits multi-scale features and auxiliary techniques essential to boost the detection performance without much increase in computational load. Extensive evaluation results on the Microsoft COCO benchmark dataset demonstrate that ViDT obtains the best AP and latency trade-off among existing fully transformer-based object detectors, and achieves 49.2AP owing to its high scalability for large models. We will release the code and trained models athttps://github.com/naver-ai/vidt


翻译:检测变压器是第一个完全端到端的物体探测学习系统,而视觉变压器则是第一个完全变压器的图像分类结构。在本文中,我们整合了视觉和探测变压器(VIDT),以建立一个有效和高效的物体探测器。 VIDT引入了重新配置的注意模块,将最近的Swin变压器扩大为独立的物体探测器,随后是计算效率高的变压器解码器,利用多种规模的变压器和辅助技术来提高探测性能,而不增加计算负荷。微软COCO基准数据集的广泛评价结果表明,VIDT在现有的完全变压器物体探测器中获得了最佳的AP和耐久权交换,并实现了49.2AP,因为大型模型的可变率很高。我们将在https://github.com/naver-ai/vidt发布代码和经过培训的模型。我们将在https://github. com/naver-vidt发布该模型。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
整合全部顶尖目标检测算法:FAIR开源Detectron
炼数成金订阅号
6+阅读 · 2018年1月25日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Transformer-based Network for RGB-D Saliency Detection
Arxiv
0+阅读 · 2021年11月30日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年12月5日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
相关资讯
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
2018机器学习开源资源盘点
专知
6+阅读 · 2019年2月2日
论文笔记之Feature Selective Networks for Object Detection
统计学习与视觉计算组
21+阅读 · 2018年7月26日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
整合全部顶尖目标检测算法:FAIR开源Detectron
炼数成金订阅号
6+阅读 · 2018年1月25日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
相关论文
Transformer-based Network for RGB-D Saliency Detection
Arxiv
0+阅读 · 2021年11月30日
EfficientDet: Scalable and Efficient Object Detection
Arxiv
6+阅读 · 2019年11月20日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
4+阅读 · 2018年12月20日
Arxiv
7+阅读 · 2018年12月5日
Top
微信扫码咨询专知VIP会员