何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

会员服务 ·

何恺明团队新作：只用普通ViT，不做分层设计也能搞定目标检测

2022 年 4 月 1 日 量子位

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

微软的Swin Transformer去年横空出世，一举突破了Transformer做视觉任务复杂度过高的问题。

这种把Transformer“卷积网络”化的做法，也成为当前ViT研究领域的热门方向。

但现在，何恺明团队的最新论文提出了不同的观点：

在目标检测任务上，像Swin Transformer那样的复杂操作可能是没有必要的。

只用普通ViT做骨干网络，一样能在目标检测任务上拿下高分。

不对ViT引入分层设计

ViT可以说是打开了Transformer跨界处理视觉任务的新大门。

但原始ViT的问题在于，它是一个非层次化的架构。也就是说，ViT只有一个单一尺度的特征图。

于是在目标检测这样的任务中，ViT就面临着两个问题：

其一，如何在下游任务中用预训练好的骨干网络来处理好各种大小不同的物体？

其二，全局注意力机制的复杂度与输入图像尺寸的平方呈正比，在面对高分辨率图像时，处理效率低下。

以Swin Transformer为代表，给出的解决方案是向CNN学习，将分层设计重新引入骨干网络：

基于分层特征图，利用特征金字塔网络（FPN）或U-Net等技术进行密集预测
将自注意力计算限制在不重叠的局部窗口中，同时允许跨窗口连接，从而带来更高的效率。

而何恺明团队的这篇新论文，则试图寻找一个新的突破方向。

其核心，是放弃FPN设计。

具体而言，研究人员通过对ViT的最后一层特征图进行卷积或反卷积，得到了多尺度特征图，从而重建出一个简单的FPN。

相比于标准特征金字塔通过bottom-up、top-down和lateral connection做特征融合的方法，可以说得上是简单粗暴。

另外，在对高分辨率图像进行特征提取时，研究人员也采用了窗口注意力机制，但没有选择像Swin Transformer那样做shift。

在进行信息交互时，他们将block均分为四个部分，探索了两种策略：全局传播和卷积传播。

从表格中可以看出，采用4个卷积块（conv block）的效果是最好的。

这种新方法被命名为ViTDet。

论文还提到，结合MAE方法进行预训练，效果更好。

从实验结果来看，以ViT作为骨干网络的方法，在模型较大时，展现出了比Swin、MVITv2等采用分层策略的方法更优的性能。

研究人员表示：

使用普通ViT作为骨干网络，基于MAE方法进行预训练，由此得到的ViTDet能与之前所有基于分层骨干网络的先进方法竞争。

关于作者

Yanghao Li，本硕毕业于北京大学，现在在Facebook AI研究院担任研究工程师。

Hanzi Mao，本硕毕业于华中科技大学，2020年在德州农工大学拿到博士学位，现为Facebook AI研究院高级研究科学家。

另外，除了何恺明，Ross Girshick大神也坐镇了这篇论文。

论文地址：
https://arxiv.org/abs/2203.16527

— 完 —

「人工智能」、「智能汽车」微信社群邀你加入！

欢迎关注人工智能、智能汽车的小伙伴们加入我们，与AI从业者交流、切磋，不错过最新行业发展&技术进展。

ps.加好友请务必备注您的姓名-公司-职位哦~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

何恺明

关注 7

何恺明，本科就读于清华大学，博士毕业于香港中文大学多媒体实验室。 2011年加入微软亚洲研究院（MSRA）工作，主要研究计算机视觉和深度学习。2016年，加入Facebook AI Research（FAIR）担任研究科学家

基于深度学习的图像目标检测算法综述

专知会员服务

100+阅读 · 2022年4月15日

何恺明组新论文：只用ViT做主干也可以做好目标检测

专知会员服务

30+阅读 · 2022年4月2日

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【CVPR2021】通道注意力的高效移动网络设计

专知会员服务

20+阅读 · 2021年4月27日

何恺明团队新作ViTDet：用于目标检测的视觉Transformer主干网络

CVer

1+阅读 · 2022年4月2日

何恺明组新论文：只用ViT做主干也可以做好目标检测

机器之心

0+阅读 · 2022年4月1日

把大核卷积拆成三步，清华胡事民团队新视觉Backbone刷榜了，集CNN与ViT优点于一身

量子位

2+阅读 · 2022年2月23日

用Transformer进行端到端视觉表示学习！ Box-Attention：目标检测、实例分割轻松涨点

极市平台

0+阅读 · 2021年12月13日

谷歌提出「卷积+注意力」新模型，超越ResNet最强变体！

量子位

1+阅读 · 2021年6月25日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

超级杂交稻秧盘育秧精密播种性能检测方法及关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

模态信息非完备采样下被动声纳目标检测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

滑动窗口上数据流副本近似检测算法及其空间复杂度下界研究

国家自然科学基金

0+阅读 · 2013年12月31日

对偶框架各向异性提升变换理论与应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

Sensitivity of sparse codes to image distortions

Arxiv

0+阅读 · 2022年4月15日

Masked Autoencoders Are Scalable Vision Learners

Arxiv

27+阅读 · 2021年11月11日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Imbalance Problems in Object Detection: A Review

Arxiv

25+阅读 · 2020年3月11日

VIP会员