The recent amalgamation of transformer and convolutional designs has led to steady improvements in accuracy and efficiency of the models. In this work, we introduce FastViT, a hybrid vision transformer architecture that obtains the state-of-the-art latency-accuracy trade-off. To this end, we introduce a novel token mixing operator, RepMixer, a building block of FastViT, that uses structural reparameterization to lower the memory access cost by removing skip-connections in the network. We further apply train-time overparametrization and large kernel convolutions to boost accuracy and empirically show that these choices have minimal effect on latency. We show that - our model is 3.5x faster than CMT, a recent state-of-the-art hybrid transformer architecture, 4.9x faster than EfficientNet, and 1.9x faster than ConvNeXt on a mobile device for the same accuracy on the ImageNet dataset. At similar latency, our model obtains 4.2% better Top-1 accuracy on ImageNet than MobileOne. Our model consistently outperforms competing architectures across several tasks -- image classification, detection, segmentation and 3D mesh regression with significant improvement in latency on both a mobile device and a desktop GPU. Furthermore, our model is highly robust to out-of-distribution samples and corruptions, improving over competing robust models.


翻译:最近,Transformer和卷积设计的结合导致了模型精度和效率的稳定提高。在本文中,我们介绍了FastViT,一种混合视觉Transformer架构,其取得了最先进的时延-精度权衡。为此,我们引入了一种新的令牌混合运算符RepMixer,它是FastViT的构建块,使用结构再参数化降低了网络中的存储器访问成本,通过删除跳跃连接来实现。我们进一步应用训练时超参数和大内核卷积来提高准确性,并且经验上表明这些选择对延迟的影响非常小。我们展示了-我们的模型在移动设备上比CMT最近的最先进的混合Transformer架构快3.5倍,在相同的准确率下比EfficientNet快4.9倍,在相同的延迟下比ConvNeXt快1.9倍。在类似的延迟下,我们的模型比MobileOne在ImageNet上获得了4.2%更好的Top-1准确率。我们的模型在几个任务--图像分类、检测、分割和3D网格回归--中始终优于竞争架构,在移动设备和桌面GPU上具有显着的延迟改进。此外,我们的模型对于分布样本和碎片具有高度的鲁棒性,改进了竞争鲁棒模型。

0
下载
关闭预览

相关内容

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA
专知会员服务
24+阅读 · 2022年3月9日
专知会员服务
27+阅读 · 2021年8月2日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
32+阅读 · 2021年7月27日
专知会员服务
64+阅读 · 2021年4月11日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
57+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
【ICML2019】IanGoodfellow自注意力GAN的代码与PPT
GAN生成式对抗网络
18+阅读 · 2019年6月30日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月16日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
13+阅读 · 2019年11月14日
VIP会员
相关VIP内容
【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
CVPR2022 | Sparse Transformer刷新点云目标检测的SOTA
专知会员服务
24+阅读 · 2022年3月9日
专知会员服务
27+阅读 · 2021年8月2日
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
32+阅读 · 2021年7月27日
专知会员服务
64+阅读 · 2021年4月11日
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
57+阅读 · 2021年3月3日
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员