Vision transformers (ViTs) have recently received explosive popularity, but their enormous model sizes and training costs remain daunting. Conventional post-training pruning often incurs higher training budgets. In contrast, this paper aims to trim down both the training memory overhead and the inference complexity, without sacrificing the achievable accuracy. We launch and report the first-of-its-kind comprehensive exploration, on taking a unified approach of integrating sparsity in ViTs "from end to end". Specifically, instead of training full ViTs, we dynamically extract and train sparse subnetworks, while sticking to a fixed small parameter budget. Our approach jointly optimizes model parameters and explores connectivity throughout training, ending up with one sparse network as the final output. The approach is seamlessly extended from unstructured to structured sparsity, the latter by considering to guide the prune-and-grow of self-attention heads inside ViTs. For additional efficiency gains, we further co-explore data and architecture sparsity, by plugging in a novel learnable token selector to adaptively determine the currently most vital patches. Extensive results on ImageNet with diverse ViT backbones validate the effectiveness of our proposals which obtain significantly reduced computational cost and almost unimpaired generalization. Perhaps most surprisingly, we find that the proposed sparse (co-)training can even improve the ViT accuracy rather than compromising it, making sparsity a tantalizing "free lunch". For example, our sparsified DeiT-Small at (5%, 50%) sparsity for (data, architecture), improves 0.28% top-1 accuracy, and meanwhile enjoys 49.32% FLOPs and 4.40% running time savings. Our codes are available at https://github.com/VITA-Group/SViTE.


翻译:视觉变异器(ViTs)最近受到创世欢迎,但其巨大的模型规模和培训成本仍然令人生畏。常规的训练后调整往往需要更高的培训预算。与此形成对照的是,本文的目的是在不牺牲可实现的准确性的情况下,缩小培训记忆管理费用和推论复杂性,同时不牺牲培训记忆管理费用。我们推出和报告其同类的首度全面探索,即“从头到尾”统一整合ViTs中的超音速。具体地说,我们不全面培训完全的ViTs,而是动态地提取和培训稀释的子网络,同时坚持固定的小型参数预算。我们的方法是优化模型参数参数,探索整个培训过程中的连通性,最终以一个稀少的网络结束。这个方法从无缝扩展到结构上的松散,后者是考虑指导ViTs内部自我保存的头部的边际和宽宽度。为了提高效率,我们进一步合作地将ViLOVi-OVi-Oi-Oiality数据和结构的宽度,通过新式的可选的选取的标志来确定当前最关键的准确性决定。SlodS-L-reval-ral-ralal-alalalalalalalalalalalalalalalalalalalal 。在我们的拟议成本中可以大幅上大大地验证我们的软化中获取到最低成本。

0
下载
关闭预览

相关内容

专知会员服务
30+阅读 · 2021年7月30日
专知会员服务
51+阅读 · 2020年12月14日
最新《Transformers模型》教程,64页ppt
专知会员服务
313+阅读 · 2020年11月26日
专知会员服务
61+阅读 · 2020年3月19日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2020年11月28日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
VIP会员
相关VIP内容
专知会员服务
30+阅读 · 2021年7月30日
专知会员服务
51+阅读 · 2020年12月14日
最新《Transformers模型》教程,64页ppt
专知会员服务
313+阅读 · 2020年11月26日
专知会员服务
61+阅读 · 2020年3月19日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年8月3日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
3+阅读 · 2020年11月28日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Top
微信扫码咨询专知VIP会员