高关注度快速视觉变形器 (Fast Vision Transformers with HiLo Attention) - 专知论文

会员服务 ·

0

Attention · Vision · Performer · 变换 · 有向 ·

2023 年 1 月 19 日

Fast Vision Transformers with HiLo Attention

翻译：高关注度快速视觉变形器

Zizheng Pan,Jianfei Cai,Bohan Zhuang

from arxiv, NeurIPS 2022 camera ready

Vision Transformers (ViTs) have triggered the most recent and significant breakthroughs in computer vision. Their efficient designs are mostly guided by the indirect metric of computational complexity, i.e., FLOPs, which however has a clear gap with the direct metric such as throughput. Thus, we propose to use the direct speed evaluation on the target platform as the design principle for efficient ViTs. Particularly, we introduce LITv2, a simple and effective ViT which performs favourably against the existing state-of-the-art methods across a spectrum of different model sizes with faster speed. At the core of LITv2 is a novel self-attention mechanism, which we dub HiLo. HiLo is inspired by the insight that high frequencies in an image capture local fine details and low frequencies focus on global structures, whereas a multi-head self-attention layer neglects the characteristic of different frequencies. Therefore, we propose to disentangle the high/low frequency patterns in an attention layer by separating the heads into two groups, where one group encodes high frequencies via self-attention within each local window, and another group encodes low frequencies by performing global attention between the average-pooled low-frequency keys and values from each window and each query position in the input feature map. Benefiting from the efficient design for both groups, we show that HiLo is superior to the existing attention mechanisms by comprehensively benchmarking FLOPs, speed and memory consumption on GPUs and CPUs. For example, HiLo is 1.4x faster than spatial reduction attention and 1.6x faster than local window attention on CPUs. Powered by HiLo, LITv2 serves as a strong backbone for mainstream vision tasks including image classification, dense detection and segmentation. Code is available at https://github.com/ziplab/LITv2.

翻译：视觉变异器(ViTs)引发了计算机视觉的最新重大突破。他们的高效设计大多以计算复杂性的间接衡量标准为指导, 即FLOPs, 与直接衡量标准( 如吞吐) 存在明显差距。因此, 我们提议在目标平台上使用直接速度评价作为高效 ViTs 的设计原则。特别是, 我们引入了LITv2, 一种简单而有效的VIT2, 与当前最先进的速度模型范围不同, 速度更快。在LITv2 的核心是一个全新的自定义自定义的自我识别机制, 我们调出HiLo。 HiLOPs。受启发的是图像中的高频率捕捉到本地精度细节, 低频率聚焦于全球结构, 而多头自省自留层忽略不同频率的频率。因此, 我们建议将高/ 频率的频率模式分解在关注层, 将头部分为两组, 通过每个本地窗口的自读存储器进行高频率分类, 而另一组则将低频率的视野定位, 显示我们每个中位的C值的低位, 递化的低频率。

0

相关内容

Attention

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

“CVPR 2021 接受论文列表 1663篇论文都在这了

专知会员服务

32+阅读 · 2021年6月12日

【重磅】2021年IEEE Fellow出炉！ 282位新晋升会士！七十多位华人当选！

专知会员服务

23+阅读 · 2020年11月25日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

CVer

0+阅读 · 2022年6月2日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

层状双氢氧化物复合纳米材料作为高效类酶体系构建及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高维大规模数据的集成建模方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于时空联合图像反演的空间目标检测和跟踪研究

国家自然科学基金

0+阅读 · 2013年12月31日

新钴基层状化合物AxCoO2的制备与热电性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

CD44 对前列腺癌放射敏感性的调节作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

非线性Kohn-Sham方程可靠性高精度数值方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

高精度超高空间分辨率的LIBS固相同位素测量技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

行播作物辐射一体化模型的改进扩展和反演研究

国家自然科学基金

0+阅读 · 2009年12月31日

低碳高锰TRIP/TWIP效应共生钢的变形机制和组织演变

国家自然科学基金

0+阅读 · 2009年12月31日

DasFormer: Deep Alternating Spectrogram Transformer for Multi/Single-Channel Speech Separation

Arxiv

0+阅读 · 2023年3月14日

Scaling Vision-Language Models with Sparse Mixture of Experts

Arxiv

0+阅读 · 2023年3月13日

CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention

Arxiv

0+阅读 · 2023年3月13日

Learning Spatial-Frequency Transformer for Visual Object Tracking

Arxiv

0+阅读 · 2023年3月9日

ARS-DETR: Aspect Ratio Sensitive Oriented Object Detection with Transformer

Arxiv

0+阅读 · 2023年3月9日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

VIP会员

文章信息

相关主题

相关VIP内容

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

【CVPR 2022】NUS&字节跳动提出Shunted Transformer：多尺度Token叠加

专知会员服务

16+阅读 · 2022年4月8日

【ICCV 2021 】Vision Transformer中的相对位置编码

专知会员服务

30+阅读 · 2021年7月30日

“CVPR 2021 接受论文列表 1663篇论文都在这了

专知会员服务

32+阅读 · 2021年6月12日

【重磅】2021年IEEE Fellow出炉！ 282位新晋升会士！七十多位华人当选！

专知会员服务

23+阅读 · 2020年11月25日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

卫星导航技术发展综述

《美军"僚机"联合能力技术演示项目：有人-无人火炮作战》41页报告

美军条令《火力指挥》116页

可解释的人工智能在生物医学图像分析中的应用综述

相关资讯

GNN 新基准！Long Range Graph Benchmark

GNN 新基准！Long Range Graph Benchmark

图与推荐

0+阅读 · 2022年10月18日

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

新注意力机制！LITv2：具有HiLo注意力的快速视觉Transformer

CVer

0+阅读 · 2022年6月2日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

【论文推荐】最新五篇命名实体识别相关论文—深度主动学习、Lattice LSTM、混合马尔可夫CRF

专知

26+阅读 · 2018年5月22日

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

【论文推荐】最新七篇图像检索相关论文—草图、Tie-Aware、场景图解析、叠加跨注意力机制、深度哈希、人群估计

专知

10+阅读 · 2018年4月22日

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

【论文推荐】最新七篇自注意力机制(Self-attention)相关论文—结构化自注意力、相对位置、混合、句子表达、文本向量

专知

29+阅读 · 2018年3月12日

可解释的CNN

可解释的CNN

CreateAMind

17+阅读 · 2017年10月5日

相关论文

DasFormer: Deep Alternating Spectrogram Transformer for Multi/Single-Channel Speech Separation

Arxiv

0+阅读 · 2023年3月14日

Scaling Vision-Language Models with Sparse Mixture of Experts

Arxiv

0+阅读 · 2023年3月13日

CrossFormer++: A Versatile Vision Transformer Hinging on Cross-scale Attention

Arxiv

0+阅读 · 2023年3月13日

Learning Spatial-Frequency Transformer for Visual Object Tracking

Arxiv

0+阅读 · 2023年3月9日

ARS-DETR: Aspect Ratio Sensitive Oriented Object Detection with Transformer

Arxiv

0+阅读 · 2023年3月9日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Look-into-Object: Self-supervised Structure Modeling for Object Recognition

Arxiv

15+阅读 · 2020年3月31日

相关基金

层状双氢氧化物复合纳米材料作为高效类酶体系构建及其应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于高维大规模数据的集成建模方法的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于时空联合图像反演的空间目标检测和跟踪研究

国家自然科学基金

0+阅读 · 2013年12月31日

新钴基层状化合物AxCoO2的制备与热电性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

有理映射的参数空间

国家自然科学基金

0+阅读 · 2013年12月31日

CD44 对前列腺癌放射敏感性的调节作用及机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

非线性Kohn-Sham方程可靠性高精度数值方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

高精度超高空间分辨率的LIBS固相同位素测量技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

行播作物辐射一体化模型的改进扩展和反演研究

国家自然科学基金

0+阅读 · 2009年12月31日

低碳高锰TRIP/TWIP效应共生钢的变形机制和组织演变

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员