We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10x more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https://github.com/facebookresearch/SlowFast


翻译:我们通过将多尺度特征等级与变压器模型连接起来,为视频和图像识别提出多尺度视觉变异器(MViT)的初始概念。多尺度变异器有多个频道分辨率级。从输入分辨率和小频道层面开始,从输入分辨率和小频道层面分级扩展频道容量,同时降低空间分辨率。这创造了一个多尺度的功能金字塔,其早期层以高空间分辨率运行,以模拟简单的低水平视觉信息,以及空间粗糙但复杂、高维特征的更深层。我们评估了这一基本建筑,以模拟各种视频识别任务的视觉信号的密集性质,在这些任务中,它优于依赖大规模外部预培训的同步视觉变异器,在计算和参数方面成本为5-10x。我们进一步删除了时间层面,并在图像分类中应用了我们的模型,在图像分类中它优于先前关于视觉变异器的工作。代码见: https://github.com/facebourresearch/SlowFast/SlowFast。

1
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年6月12日
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
10+阅读 · 2021年2月9日
Transformer替代CNN?8篇论文概述最新进展!
专知会员服务
77+阅读 · 2021年1月19日
最新《Transformers模型》教程,64页ppt
专知会员服务
317+阅读 · 2020年11月26日
专知会员服务
61+阅读 · 2020年3月19日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
用Transformer完全替代CNN
CVer
20+阅读 · 2020年10月23日
已删除
将门创投
3+阅读 · 2019年10月18日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
CAT: Cross Attention in Vision Transformer
Arxiv
0+阅读 · 2021年6月10日
Arxiv
0+阅读 · 2021年6月5日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
6+阅读 · 2019年7月11日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年6月12日
【ICLR2021】彩色化变换器,Colorization Transformer
专知会员服务
10+阅读 · 2021年2月9日
Transformer替代CNN?8篇论文概述最新进展!
专知会员服务
77+阅读 · 2021年1月19日
最新《Transformers模型》教程,64页ppt
专知会员服务
317+阅读 · 2020年11月26日
专知会员服务
61+阅读 · 2020年3月19日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
24+阅读 · 2019年11月4日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
相关资讯
用Transformer完全替代CNN
CVer
20+阅读 · 2020年10月23日
已删除
将门创投
3+阅读 · 2019年10月18日
轻量attention模块:Spatial Group-wise Enhance
极市平台
15+阅读 · 2019年7月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Top
微信扫码咨询专知VIP会员