This paper studies the model compression problem of vision transformers. Benefit from the self-attention module, transformer architectures have shown extraordinary performance on many computer vision tasks. Although the network performance is boosted, transformers are often required more computational resources including memory usage and the inference complexity. Compared with the existing knowledge distillation approaches, we propose to excavate useful information from the teacher transformer through the relationship between images and the divided patches. We then explore an efficient fine-grained manifold distillation approach that simultaneously calculates cross-images, cross-patch, and random-selected manifolds in teacher and student models. Experimental results conducted on several benchmarks demonstrate the superiority of the proposed algorithm for distilling portable transformer models with higher performance. For example, our approach achieves 75.06% Top-1 accuracy on the ImageNet-1k dataset for training a DeiT-Tiny model, which outperforms other ViT distillation methods.


翻译:本文研究视觉变压器的模型压缩问题。 从自我注意模块中受益, 变压器结构显示许多计算机的视觉任务有非凡的性能。 虽然网络性能得到提升, 但变压器往往需要更多的计算资源, 包括内存使用和推推力的复杂性。 与现有的知识蒸馏方法相比, 我们提议通过图像和分割补丁之间的关系, 从教师变压器中挖掘有用的信息。 然后我们探索一种高效的精细裁剪精细的蒸馏方法, 既计算跨图像、 交叉匹配, 也同时计算教师和学生模型中随机选择的多元。 在几个基准上进行的实验结果显示, 以更高性能的方式蒸馏移动式变压器模型的拟议算法的优势。 例如, 我们的方法在图像Net-1k数据集中实现了75.06% Top-1 精确度, 用于培训Deit-Tiny 模型, 后者比 VIT 的其他蒸馏方法要强。

0
下载
关闭预览

相关内容

【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
151+阅读 · 2021年10月25日
专知会员服务
34+阅读 · 2021年8月16日
最新《Transformers模型》教程,64页ppt
专知会员服务
324+阅读 · 2020年11月26日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
已删除
将门创投
6+阅读 · 2019年4月10日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
11+阅读 · 2021年10月26日
Arxiv
9+阅读 · 2021年3月3日
已删除
Arxiv
32+阅读 · 2020年3月23日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Arxiv
5+阅读 · 2018年4月13日
VIP会员
相关VIP内容
【Tutorial】计算机视觉中的Transformer,98页ppt
专知会员服务
151+阅读 · 2021年10月25日
专知会员服务
34+阅读 · 2021年8月16日
最新《Transformers模型》教程,64页ppt
专知会员服务
324+阅读 · 2020年11月26日
【深度学习视频分析/多模态学习资源大列表】
专知会员服务
92+阅读 · 2019年10月16日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
已删除
将门创投
6+阅读 · 2019年4月10日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员