This paper studies the efficiency problem for visual transformers by excavating redundant calculation in given networks. The recent transformer architecture has demonstrated its effectiveness for achieving excellent performance on a series of computer vision tasks. However, similar to that of convolutional neural networks, the huge computational cost of vision transformers is still a severe issue. Considering that the attention mechanism aggregates different patches layer-by-layer, we present a novel patch slimming approach that discards useless patches in a top-down paradigm. We first identify the effective patches in the last layer and then use them to guide the patch selection process of previous layers. For each layer, the impact of a patch on the final output feature is approximated and patches with less impact will be removed. Experimental results on benchmark datasets demonstrate that the proposed method can significantly reduce the computational costs of vision transformers without affecting their performances. For example, over 45% FLOPs of the ViT-Ti model can be reduced with only 0.2% top-1 accuracy drop on the ImageNet dataset.


翻译:本文通过在特定网络中挖掘多余的计算方法来研究视觉变压器的效率问题。 最近的变压器结构展示了在一系列计算机视觉任务上取得出色业绩的功效。 但是, 类似进化神经网络, 视觉变压器的巨大计算成本仍是一个严重问题。 考虑到注意机制将不同的补丁层逐层合并在一起, 我们提出了一个新颖的补丁瘦化方法, 在自上而下的模式中丢弃无用的补丁。 我们首先确定最后一层的有效补丁, 然后用它们来指导前层的补丁选择过程。 对于每一层, 补丁对最后输出特征的影响是近似的, 并且将消除影响较小的补丁。 基准数据集的实验结果表明, 拟议的方法可以显著降低视觉变压器的计算成本, 而不会影响其性能。 例如, VT- Ti 模型中超过45%的FLOP可以减少, 在图像网络数据集上仅0.2%的顶端-1精度下降 。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
1+阅读 · 2021年8月5日
Arxiv
19+阅读 · 2021年4月8日
Arxiv
5+阅读 · 2018年1月18日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
一份简单《图神经网络》教程,28页ppt
专知会员服务
123+阅读 · 2020年8月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
2019年机器学习框架回顾
专知会员服务
35+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
弱监督语义分割最新方法资源列表
专知
9+阅读 · 2019年2月26日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
【泡泡一分钟】学习多视图相似度(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Top
微信扫码咨询专知VIP会员