Vision transformers (ViTs) have recently received explosive popularity, but the huge computational cost is still a severe issue. Since the computation complexity of ViT is quadratic with respect to the input sequence length, a mainstream paradigm for computation reduction is to reduce the number of tokens. Existing designs include structured spatial compression that uses a progressive shrinking pyramid to reduce the computations of large feature maps, and unstructured token pruning that dynamically drops redundant tokens. However, the limitation of existing token pruning lies in two folds: 1) the incomplete spatial structure caused by pruning is not compatible with structured spatial compression that is commonly used in modern deep-narrow transformers; 2) it usually requires a time-consuming pre-training procedure. To tackle the limitations and expand the applicable scenario of token pruning, we present Evo-ViT, a self-motivated slow-fast token evolution approach for vision transformers. Specifically, we conduct unstructured instance-wise token selection by taking advantage of the simple and effective global class attention that is native to vision transformers. Then, we propose to update the selected informative tokens and uninformative tokens with different computation paths, namely, slow-fast updating. Since slow-fast updating mechanism maintains the spatial structure and information flow, Evo-ViT can accelerate vanilla transformers of both flat and deep-narrow structures from the very beginning of the training process. Experimental results demonstrate that our method significantly reduces the computational cost of vision transformers while maintaining comparable performance on image classification.


翻译:视觉变压器(ViTs)最近受到爆炸性欢迎,但巨大的计算成本仍是一个严重问题。由于ViT的计算复杂性与输入序列长度的长度相比是四倍的,因此计算削减的主流模式是减少象征性物的数量。现有的设计包括结构化的空间压缩,使用逐渐缩小的金字塔来减少大型地貌图的计算,以及动态地丢弃多余物标的无结构化象征性调整方法。然而,现有象征性裁剪的局限在于两个折叠:1) 由裁剪造成的不完整的空间结构与现代深度变压器通常使用的结构性空间压缩不兼容;2 通常需要一个耗时的预培训程序。要克服限制并扩大可应用的象征性调整方案,我们介绍Evo-ViT,一种自动的慢速变速进式演进方法。具体地,我们利用对视觉变压器的简单而有效的全球级关注进行不结构选择。然后,我们提议更新所选的指示性变压式变压器和不固定的变压式变压式变压器结构,同时大幅更新我们快速的变压式变压式变压式变压式变压式的变压方法。

2
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年8月16日
专知会员服务
29+阅读 · 2021年7月30日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
最新《弱监督预训练语言模型微调》报告,52页ppt
专知会员服务
37+阅读 · 2020年12月26日
最新《Transformers模型》教程,64页ppt
专知会员服务
300+阅读 · 2020年11月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
1+阅读 · 2021年11月1日
Efficient Transformer for Single Image Super-Resolution
Blending Anti-Aliasing into Vision Transformer
Arxiv
0+阅读 · 2021年10月28日
Arxiv
19+阅读 · 2020年12月23日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关VIP内容
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
相关论文
Arxiv
1+阅读 · 2021年11月1日
Efficient Transformer for Single Image Super-Resolution
Blending Anti-Aliasing into Vision Transformer
Arxiv
0+阅读 · 2021年10月28日
Arxiv
19+阅读 · 2020年12月23日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Top
微信扫码咨询专知VIP会员