基于双流更新的视觉

Transformer动态加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

视觉Transformer 通过自注意力机制捕获短程和长程视觉依赖的能力使其在各种计算机视觉任务中显示出巨大的潜力,但是长程感受野同样带来了巨大的计算开销,特别是对于高分辨率视觉任务。为了能够在保持原有模型准确率的前提下,降低模型计算复杂度,从而使得视觉 Transformer成为一种更加通用、高效、低廉的解决框架,我们提出了Evo-ViT,基于双流token更新的视觉transformer动态加速方法。

该方法在保持了完整空间结构的同时给高信息量token和低信息量token分配不同的计算通道。从而在不改变网络结构的情况下,以极低的精度损失大幅提升直筒状和金字塔压缩型的Transformer模型推理性能。

其中,我们提出的基于全局class attention的token选择策略通过增强层间的通信联系实现稳定token选择,相比以往方法,无需依靠外部的可学习网络来对每一层的token进行选择,也无需基于训练好的网络进行token裁剪。在ImageNet 1K数据集下,Evo-ViT可以提升DeiT-S 60%推理速度的同时仅仅损失0.4%的精度。

https://www.zhuanzhi.ai/paper/7a1101e877530fa0dc16f1315fe9c019

成为VIP会员查看完整内容
23

相关内容

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
27+阅读 · 2022年1月24日
【AAAI2022】基于对比时空前置学习的视频自监督表示
专知会员服务
19+阅读 · 2021年12月19日
专知会员服务
22+阅读 · 2021年7月15日
专知会员服务
19+阅读 · 2021年5月4日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
36+阅读 · 2021年4月16日
基于深度学习的视频目标检测综述
CVer
7+阅读 · 2019年6月9日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
基于手机系统的实时目标检测
计算机视觉战队
8+阅读 · 2018年12月5日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
6+阅读 · 2018年7月30日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
9+阅读 · 2017年7月7日
Arxiv
8+阅读 · 2020年10月7日
Arxiv
6+阅读 · 2020年4月14日
Contrastive Representation Distillation
Arxiv
5+阅读 · 2019年10月23日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
VIP会员
相关资讯
基于深度学习的视频目标检测综述
CVer
7+阅读 · 2019年6月9日
Colab 免费提供 Tesla T4 GPU,是时候薅羊毛了
机器之心
10+阅读 · 2019年4月25日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
基于手机系统的实时目标检测
计算机视觉战队
8+阅读 · 2018年12月5日
【CVPR2018】物体检测中的结构推理网络
深度学习大讲堂
6+阅读 · 2018年7月30日
论文笔记:多任务相关粒子滤波跟踪器
统计学习与视觉计算组
9+阅读 · 2017年7月7日
相关论文
微信扫码咨询专知VIP会员