【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测 - 专知

会员服务 ·

0

【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测

2022 年 10 月 5 日 专知

视觉transformer最近在各种视觉任务中取得了有竞争力的结果，但在处理大量token时仍然存在很大的计算成本。许多先进的方法已经开发出来，以减少大规模视觉transformer中的token总数，特别是对于图像分类任务。通常，他们根据与 [class]标记的相关性选择一组基本标记，然后微调视觉transformer的权重。这种微调对于密集预测来说不太实用，因为与图像分类相比，计算量和GPU内存成本要高得多。在本文中，我们关注一个更具挑战性的问题，即在不进行任何额外的再训练或微调的情况下，加速大规模视觉transformer进行密集预测。针对高密度预测需要高分辨率表示的事实，我们提出了两个非参数运算符，一个是减少token数量的token聚类层，一个是增加token数量的token重构层。为了实现这一目标，我们执行了以下步骤:(i)我们使用token聚类层将相邻的token聚在一起，从而产生保持空间结构的低分辨率表示;(ii)仅将以下transformer层应用于这些低分辨率表示或集群token;(iii)我们使用token重构层从精炼的低分辨率表示重新创建高分辨率表示。该方法在目标检测、语义分割、泛视分割、实例分割和深度估计等五种密集预测任务中取得了良好的效果。因此，该方法在不微调官方权重的情况下，在ADE20K上保持99.5%的性能的同时，加速了40%↑FPS并节省了30%↓GFLOPs的“Segmenter+ViT-L/16”。

https://www.zhuanzhi.ai/paper/d7612e394722b9aa764f35a645789efe

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“DPWF” 就可以获取《【NeurIPS2022】不用微调的加速大规模视觉Transformer的密集预测》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

密集预测

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知会员服务

27+阅读 · 2022年10月23日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

32+阅读 · 2022年10月6日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知会员服务

32+阅读 · 2022年4月23日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知会员服务

23+阅读 · 2021年10月25日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知

1+阅读 · 2022年10月23日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知

0+阅读 · 2022年10月6日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知

0+阅读 · 2022年7月15日

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

专知

0+阅读 · 2022年5月31日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】多视图聚合的大规模三维语义分割

【CVPR2022】多视图聚合的大规模三维语义分割

专知

3+阅读 · 2022年4月20日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知

0+阅读 · 2022年3月21日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知

0+阅读 · 2021年10月25日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于不可压缩流体计算的高效能复预处理算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

医学图像分割的新变分模型及其快速有效的最优化算法

国家自然科学基金

0+阅读 · 2013年12月31日

负载板栗壳色素复合吸附剂制备及其去除水中重金属性能

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏感知学习的高光谱遥感影像分类

国家自然科学基金

1+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

基于Voronoi图的动态虚拟场景可见性计算方法

国家自然科学基金

0+阅读 · 2010年12月31日

基于四元数的彩色图像边缘检测和分割方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training

Arxiv

0+阅读 · 2022年11月22日

Transformer Based Multi-Grained Features for Unsupervised Person Re-Identification

Arxiv

0+阅读 · 2022年11月22日

Multitask Vision-Language Prompt Tuning

Arxiv

0+阅读 · 2022年11月22日

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

Arxiv

0+阅读 · 2022年11月18日

A Fair Loss Function for Network Pruning

Arxiv

0+阅读 · 2022年11月18日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition

Arxiv

12+阅读 · 2021年5月30日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

VIP会员

相关主题

视觉Transformer

词元分析器

相关VIP内容

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知会员服务

27+阅读 · 2022年10月23日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知会员服务

32+阅读 · 2022年10月6日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知会员服务

32+阅读 · 2022年4月23日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

【NeurIPS2021】用于解决模仿学习中因果混淆问题的察觉对象的正则化方法

专知会员服务

19+阅读 · 2021年11月22日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知会员服务

23+阅读 · 2021年10月25日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【NeurIPS2022】基于最大熵编码的自监督学习

【NeurIPS2022】基于最大熵编码的自监督学习

专知

1+阅读 · 2022年10月23日

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

【NeurIPS2022】VICRegL:局部视觉特征的自监督学习

专知

0+阅读 · 2022年10月6日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知

0+阅读 · 2022年7月15日

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

专知

0+阅读 · 2022年5月31日

【CVPR2022】基于知识蒸馏的高效预训练

【CVPR2022】基于知识蒸馏的高效预训练

专知

4+阅读 · 2022年4月23日

【CVPR2022】多视图聚合的大规模三维语义分割

【CVPR2022】多视图聚合的大规模三维语义分割

专知

3+阅读 · 2022年4月20日

【CVPR2022】ContrastMask:对比学习来分割各种

【CVPR2022】ContrastMask:对比学习来分割各种

专知

0+阅读 · 2022年3月21日

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

【CVPR2022】语言引导与基于视觉的深度度量学习的集成

专知

3+阅读 · 2022年3月17日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知

0+阅读 · 2021年10月25日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

基于不动点方程解析求解的高动态场景多尺度分割

国家自然科学基金

0+阅读 · 2014年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于不可压缩流体计算的高效能复预处理算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

医学图像分割的新变分模型及其快速有效的最优化算法

国家自然科学基金

0+阅读 · 2013年12月31日

负载板栗壳色素复合吸附剂制备及其去除水中重金属性能

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏感知学习的高光谱遥感影像分类

国家自然科学基金

1+阅读 · 2012年12月31日

基于二维随机映射和一范数优化的有监督图像分类研究

国家自然科学基金

3+阅读 · 2011年12月31日

基于Voronoi图的动态虚拟场景可见性计算方法

国家自然科学基金

0+阅读 · 2010年12月31日

基于四元数的彩色图像边缘检测和分割方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training

Arxiv

0+阅读 · 2022年11月22日

Transformer Based Multi-Grained Features for Unsupervised Person Re-Identification

Arxiv

0+阅读 · 2022年11月22日

Multitask Vision-Language Prompt Tuning

Arxiv

0+阅读 · 2022年11月22日

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

Arxiv

0+阅读 · 2022年11月18日

A Fair Loss Function for Network Pruning

Arxiv

0+阅读 · 2022年11月18日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

SVT-Net: Super Light-Weight Sparse Voxel Transformer for Large Scale Place Recognition

Arxiv

12+阅读 · 2021年5月30日

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

Arxiv

15+阅读 · 2020年2月28日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

End-to-End Dense Video Captioning with Masked Transformer

Arxiv

14+阅读 · 2018年4月3日

大家都在搜

国防科技创新

大型语言模型

久别重逢话双塔

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员