【CVPR2021】用Transformers无监督预训练进行目标检测

2021 年 3 月 3 日 专知


通过一个Transformer编码器-解码器架构的目标检测transformers (DETR)取得了与Faster R-CNN相匹配的性能。受预训练transformer在自然语言处理中取得的巨大成功的启发,我们提出了一种基于随机查询补丁检测的无监督预训练目标检测任务。具体地说,我们从给定的图像中随机裁剪小块,然后将它们作为查询输入解码器。该模型经过预训练,从原始图像中检测出这些查询补丁。在预训练,我们解决了两个关键问题:多任务学习和多查询定位。(1)为了权衡在前置任务中分类和定位的多任务学习,我们冻结CNN骨干,提出一个与patch检测联合优化的patch特征重构分支。(2)为实现多查询定位,我们引入了单查询补丁的UP-DETR ,并将其扩展为具有对象查询洗牌和注意掩码的多查询补丁。在我们的实验中,UP-DETR算法在PASCAL VOC和COCO数据集上具有更快的收敛速度和更高的精度,显著提高了DETR算法的性能。代码很快就会发布。


https://www.zhuanzhi.ai/paper/853834bf1a11589a505c42a963aa4fd5



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“DETR” 就可以获取【CVPR2021】用Transformers无监督预训练进行目标检测》专知下载链接


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
4

相关内容

【CVPR2021】多实例主动学习目标检测
专知会员服务
43+阅读 · 2021年4月18日
专知会员服务
44+阅读 · 2021年4月18日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
37+阅读 · 2021年4月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
专知会员服务
30+阅读 · 2021年4月5日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
图神经网络架构,稳定性,可迁移性
专知
5+阅读 · 2020年8月8日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
【ICML2020】小样本目标检测
专知
7+阅读 · 2020年6月2日
106页《深度CNN-目标检测》综述进展论文
专知
4+阅读 · 2018年9月30日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
11+阅读 · 2019年6月19日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关VIP内容
【CVPR2021】多实例主动学习目标检测
专知会员服务
43+阅读 · 2021年4月18日
专知会员服务
44+阅读 · 2021年4月18日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
37+阅读 · 2021年4月16日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
38+阅读 · 2021年4月9日
专知会员服务
30+阅读 · 2021年4月5日
【CVPR2021】自监督几何感知
专知会员服务
46+阅读 · 2021年3月6日
Top
微信扫码咨询专知VIP会员