Light-weight convolutional neural networks (CNNs) are the de-facto for mobile vision tasks. Their spatial inductive biases allow them to learn representations with fewer parameters across different vision tasks. However, these networks are spatially local. To learn global representations, self-attention-based vision trans-formers (ViTs) have been adopted. Unlike CNNs, ViTs are heavy-weight. In this paper, we ask the following question: is it possible to combine the strengths of CNNs and ViTs to build a light-weight and low latency network for mobile vision tasks? Towards this end, we introduce MobileViT, a light-weight and general-purpose vision transformer for mobile devices. MobileViT presents a different perspective for the global processing of information with transformers, i.e., transformers as convolutions. Our results show that MobileViT significantly outperforms CNN- and ViT-based networks across different tasks and datasets. On the ImageNet-1k dataset, MobileViT achieves top-1 accuracy of 78.4% with about 6 million parameters, which is 3.2% and 6.2% more accurate than MobileNetv3 (CNN-based) and DeIT (ViT-based) for a similar number of parameters. On the MS-COCO object detection task, MobileViT is 5.7% more accurate than Mo-bileNetv3 for a similar number of parameters.


翻译:轻量级神经神经网络( CNNs) 是移动视觉任务( 轻量级神经网络) 。 它们的空间感应偏差允许它们学习不同视觉任务中较少参数的表达方式。 但是, 这些网络是空间性的。 要了解全球表现, 已经采用了基于自我注意的视觉转换器( VITs ) 。 与CNNs不同, ViTs 重量重。 在本文中, 我们询问以下问题: 能否将CNNs 和 Vits 的优势结合起来, 为移动视觉任务建立一个轻量级和低潜值网络? 如此一端, 我们引入了 Move ViT, 一个用于移动设备的轻量级和通用视觉变异变异器。 移动ViViT 与基于不同的任务和数据集相比, 移动 ViWT 的优势显著超越了CNN- 和 ViT 的网络。 在图像Net-1 的数据集中, 移动ViWT 的顶级精确度网络比78. 4%, 大约600, 其中移动3 NS- DVIT 的精确度为 3. 62% 和深点数。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年7月30日
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
66+阅读 · 2021年5月23日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
19+阅读 · 2021年4月4日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
16+阅读 · 2020年7月27日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
30+阅读 · 2020年4月8日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
FLAT:中文NER屠榜之作!
深度学习自然语言处理
6+阅读 · 2020年9月25日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
4+阅读 · 2021年11月29日
Arxiv
0+阅读 · 2021年11月25日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
15+阅读 · 2020年2月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年7月30日
2021机器学习研究风向是啥?MLP→CNN→Transformer→MLP!
专知会员服务
66+阅读 · 2021年5月23日
Google-EfficientNet v2来了!更快,更小,更强!
专知会员服务
19+阅读 · 2021年4月4日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
16+阅读 · 2020年7月27日
【Facebook AI】低资源机器翻译,74页ppt
专知会员服务
30+阅读 · 2020年4月8日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
FLAT:中文NER屠榜之作!
深度学习自然语言处理
6+阅读 · 2020年9月25日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关论文
Arxiv
4+阅读 · 2021年11月29日
Arxiv
0+阅读 · 2021年11月25日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
15+阅读 · 2020年2月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Top
微信扫码咨询专知VIP会员