This paper studies the model compression problem of vision transformers. Benefit from the self-attention module, transformer architectures have shown extraordinary performance on many computer vision tasks. Although the network performance is boosted, transformers are often required more computational resources including memory usage and the inference complexity. Compared with the existing knowledge distillation approaches, we propose to excavate useful information from the teacher transformer through the relationship between images and the divided patches. We then explore an efficient fine-grained manifold distillation approach that simultaneously calculates cross-images, cross-patch, and random-selected manifolds in teacher and student models. Experimental results conducted on several benchmarks demonstrate the superiority of the proposed algorithm for distilling portable transformer models with higher performance. For example, our approach achieves 75.06% Top-1 accuracy on the ImageNet-1k dataset for training a DeiT-Tiny model, which outperforms other ViT distillation methods.


翻译:本文研究视觉变压器的模型压缩问题。 从自我注意模块中受益, 变压器结构显示许多计算机的视觉任务有非凡的性能。 虽然网络性能得到提升, 但变压器往往需要更多的计算资源, 包括内存使用和推推力的复杂性。 与现有的知识蒸馏方法相比, 我们提议通过图像和分割补丁之间的关系, 从教师变压器中挖掘有用的信息。 然后我们探索一种高效的精细裁剪精细的蒸馏方法, 既计算跨图像、 交叉匹配, 也同时计算教师和学生模型中随机选择的多元。 在几个基准上进行的实验结果显示, 以更高性能的方式蒸馏移动式变压器模型的拟议算法的优势。 例如, 我们的方法在图像Net-1k数据集中实现了75.06% Top-1 精确度, 用于培训Deit-Tiny 模型, 后者比 VIT 的其他蒸馏方法要强。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
32+阅读 · 2021年4月6日
【WWW2021】双曲图卷积网络的协同过滤
专知会员服务
39+阅读 · 2021年3月26日
专知会员服务
32+阅读 · 2021年2月21日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【KDD2020】 图神经网络在生物医药领域的应用
专知会员服务
37+阅读 · 2020年11月2日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【泡泡一分钟】基于视频修复的时空转换网络
泡泡机器人SLAM
5+阅读 · 2018年12月30日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
9+阅读 · 2021年6月16日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
7+阅读 · 2018年4月24日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年7月30日
专知会员服务
32+阅读 · 2021年4月6日
【WWW2021】双曲图卷积网络的协同过滤
专知会员服务
39+阅读 · 2021年3月26日
专知会员服务
32+阅读 · 2021年2月21日
【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL
专知会员服务
25+阅读 · 2021年1月29日
【KDD2020】 图神经网络在生物医药领域的应用
专知会员服务
37+阅读 · 2020年11月2日
Top
微信扫码咨询专知VIP会员