【AAAI2022】基于双流更新的视觉Transformer动态加速方法 - 专知VIP

会员服务 ·

2

AAAI 2022 · Transformer · 计算机视觉 · 论文 ·

2021 年 12 月 11 日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基于双流更新的视觉

Transformer动态加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

视觉Transformer 通过自注意力机制捕获短程和长程视觉依赖的能力使其在各种计算机视觉任务中显示出巨大的潜力，但是长程感受野同样带来了巨大的计算开销，特别是对于高分辨率视觉任务。为了能够在保持原有模型准确率的前提下，降低模型计算复杂度，从而使得视觉 Transformer成为一种更加通用、高效、低廉的解决框架，我们提出了Evo-ViT，基于双流token更新的视觉transformer动态加速方法。

该方法在保持了完整空间结构的同时给高信息量token和低信息量token分配不同的计算通道。从而在不改变网络结构的情况下，以极低的精度损失大幅提升直筒状和金字塔压缩型的Transformer模型推理性能。

其中，我们提出的基于全局class attention的token选择策略通过增强层间的通信联系实现稳定token选择，相比以往方法，无需依靠外部的可学习网络来对每一层的token进行选择，也无需基于训练好的网络进行token裁剪。在ImageNet 1K数据集下，Evo-ViT可以提升DeiT-S 60%推理速度的同时仅仅损失0.4%的精度。

https://www.zhuanzhi.ai/paper/7a1101e877530fa0dc16f1315fe9c019

成为VIP会员查看完整内容

24

相关内容

AAAI 2022

【AAAI2022】用于在线视频实例分割的混合实例觉知时序融合方法

【AAAI2022】用于在线视频实例分割的混合实例觉知时序融合方法

专知会员服务

12+阅读 · 2022年1月29日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

基于粗粒度数据流架构的稀疏卷积神经网络加速

专知会员服务

23+阅读 · 2021年7月15日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

FAIR和牛津大学VGG组最新论文：多模态自监督学习

FAIR和牛津大学VGG组最新论文：多模态自监督学习

CVer

11+阅读 · 2020年3月29日

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

开放知识图谱

37+阅读 · 2019年12月3日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

基于深度学习的视频目标检测综述

基于深度学习的视频目标检测综述

CVer

7+阅读 · 2019年6月9日

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

机器之心

10+阅读 · 2019年4月25日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

基于手机系统的实时目标检测

基于手机系统的实时目标检测

计算机视觉战队

8+阅读 · 2018年12月5日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

论文笔记：多任务相关粒子滤波跟踪器

论文笔记：多任务相关粒子滤波跟踪器

统计学习与视觉计算组

10+阅读 · 2017年7月7日

Improving Vision Transformers for Incremental Learning

Arxiv

1+阅读 · 2022年2月9日

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Arxiv

6+阅读 · 2021年12月6日

Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection

Arxiv

4+阅读 · 2020年12月31日

Contrastive Triple Extraction with Generative Transformer

Arxiv

4+阅读 · 2020年12月15日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

A Survey of Deep Meta-Learning

Arxiv

8+阅读 · 2020年10月7日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Contrastive Representation Distillation

Contrastive Representation Distillation

Arxiv

5+阅读 · 2019年10月23日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Arxiv

7+阅读 · 2019年4月10日

VIP会员

相关主题

计算机视觉

相关VIP内容

【AAAI2022】用于在线视频实例分割的混合实例觉知时序融合方法

【AAAI2022】用于在线视频实例分割的混合实例觉知时序融合方法

专知会员服务

12+阅读 · 2022年1月29日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

【AAAI2022】基于对比时空前置学习的视频自监督表示

【AAAI2022】基于对比时空前置学习的视频自监督表示

专知会员服务

20+阅读 · 2021年12月19日

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

【AAAI2022】基于图神经网络的稀疏结构学习在文档分类中的应用

专知会员服务

35+阅读 · 2021年12月17日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

基于粗粒度数据流架构的稀疏卷积神经网络加速

专知会员服务

23+阅读 · 2021年7月15日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【CVPR2021】基于Transformer的视频分割领域

【CVPR2021】基于Transformer的视频分割领域

专知会员服务

38+阅读 · 2021年4月16日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日

热门VIP内容

开通专知VIP会员享更多权益服务

从社会学实验到行为仿真：理解基于Agent的观点动力学建模思维

中英文版《GPT-5 System Card速览》报告

ACL 2025 | 大模型结构化知识提示的泛化能力研究

【普林斯顿博士论文】大型模型的高效推理

相关资讯

FAIR和牛津大学VGG组最新论文：多模态自监督学习

FAIR和牛津大学VGG组最新论文：多模态自监督学习

CVer

11+阅读 · 2020年3月29日

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

开放知识图谱

37+阅读 · 2019年12月3日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

【泡泡点云时空】跟踪与三角测量中一种通过兴趣点网络进行多视图2D/3D刚性配准的方法

泡泡机器人SLAM

17+阅读 · 2019年7月8日

基于深度学习的视频目标检测综述

基于深度学习的视频目标检测综述

CVer

7+阅读 · 2019年6月9日

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

Colab 免费提供 Tesla T4 GPU，是时候薅羊毛了

机器之心

10+阅读 · 2019年4月25日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

基于手机系统的实时目标检测

基于手机系统的实时目标检测

计算机视觉战队

8+阅读 · 2018年12月5日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

论文笔记：多任务相关粒子滤波跟踪器

论文笔记：多任务相关粒子滤波跟踪器

统计学习与视觉计算组

10+阅读 · 2017年7月7日

相关论文

Improving Vision Transformers for Incremental Learning

Arxiv

1+阅读 · 2022年2月9日

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Arxiv

6+阅读 · 2021年12月6日

Voxel R-CNN: Towards High Performance Voxel-based 3D Object Detection

Arxiv

4+阅读 · 2020年12月31日

Contrastive Triple Extraction with Generative Transformer

Arxiv

4+阅读 · 2020年12月15日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

A Survey of Deep Meta-Learning

Arxiv

8+阅读 · 2020年10月7日

Transformer based Grapheme-to-Phoneme Conversion

Arxiv

6+阅读 · 2020年4月14日

Contrastive Representation Distillation

Contrastive Representation Distillation

Arxiv

5+阅读 · 2019年10月23日

Mesh R-CNN

Arxiv

4+阅读 · 2019年6月6日

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

FAMNet: Joint Learning of Feature, Affinity and Multi-dimensional Assignment for Online Multiple Object Tracking

Arxiv

7+阅读 · 2019年4月10日

微信扫码咨询专知VIP会员