越少越少:在愿景变异器中少注意 (Less is More: Pay Less Attention in Vision Transformers) - 专知论文

会员服务 ·

0

Less · Vision · 变换 · 注意力机制 · INFORMS ·

2021 年 12 月 23 日

Less is More: Pay Less Attention in Vision Transformers

翻译：越少越少:在愿景变异器中少注意

Zizheng Pan,Bohan Zhuang,Haoyu He,Jing Liu,Jianfei Cai

from arxiv, Accepted to AAAI 2022

Transformers have become one of the dominant architectures in deep learning, particularly as a powerful alternative to convolutional neural networks (CNNs) in computer vision. However, Transformer training and inference in previous works can be prohibitively expensive due to the quadratic complexity of self-attention over a long sequence of representations, especially for high-resolution dense prediction tasks. To this end, we present a novel Less attention vIsion Transformer (LIT), building upon the fact that the early self-attention layers in Transformers still focus on local patterns and bring minor benefits in recent hierarchical vision Transformers. Specifically, we propose a hierarchical Transformer where we use pure multi-layer perceptrons (MLPs) to encode rich local patterns in the early stages while applying self-attention modules to capture longer dependencies in deeper layers. Moreover, we further propose a learned deformable token merging module to adaptively fuse informative patches in a non-uniform manner. The proposed LIT achieves promising performance on image recognition tasks, including image classification, object detection and instance segmentation, serving as a strong backbone for many vision tasks. Code is available at: https://github.com/zhuang-group/LIT

翻译：变异器已成为深层学习的主要结构之一,特别是作为计算机视觉中革命性神经网络(CNNs)的强大替代物;然而,变异器培训和先前工程的推论可能过于昂贵,因为对一系列长的表示序列,特别是高分辨率密集的预测任务,自我注意是四分法复杂的,因此,变异器已成为一种主导结构之一;为此,我们提出了一个新颖的减少关注的VISION变异器(LIT),其基础是,变异器的早期自我注意层仍然以当地模式为重点,给最近的等级视觉变异器带来微小的好处。具体地说,我们提议一个等级变异器,在早期使用纯多层透视器(MLPs)对丰富的本地模式进行编码,同时应用自我注意模块来捕捉更深层的长期依赖性。此外,我们进一步提议一个学习到的变形符号合并模块,以非统一的方式将适应性的信息连接成的散块。拟议的变异体使图像识别任务,包括图像分类、天体探测和实例分割,作为许多视觉任务的强大后台。我们可以在许多视野组中找到。

0

相关内容

Less

LESS 是一个开源的样式语言，受到 Sass 的影响。严格来说，LESS 是一个嵌套的元语言，符合语法规范的 CSS 语句也是符合规范的 Less 代码。

南京大学医学院最新《Transformer医学图像处理应用》综述论文，Transformers in Medical Image Analysis: A Review

南京大学医学院最新《Transformer医学图像处理应用》综述论文，Transformers in Medical Image Analysis: A Review

专知会员服务

45+阅读 · 2022年3月1日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

319+阅读 · 2020年11月26日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium3

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium3

中国图象图形学学会CSIG

0+阅读 · 2021年11月9日

【ICIG2021】Latest News & Announcements of the Plenary Talk1

【ICIG2021】Latest News & Announcements of the Plenary Talk1

中国图象图形学学会CSIG

0+阅读 · 2021年11月1日

【ICIG2021】Latest News & Announcements of the Industry Talk1

【ICIG2021】Latest News & Announcements of the Industry Talk1

中国图象图形学学会CSIG

0+阅读 · 2021年7月28日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

CSP I-plus 修饰的内皮抑制素靶向抑制肝细胞癌转移的研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉注意与协同学耦合机制下的农田杂草图像分割及检测

国家自然科学基金

0+阅读 · 2013年12月31日

几何结构形变空间的几何拓扑

国家自然科学基金

0+阅读 · 2012年12月31日

ERG介导组蛋白修饰调控CRMP4失活启动前列腺癌转移的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

结构基元可辨尺度下准周期织物纹理的表征、解耦及特征提取研究

国家自然科学基金

0+阅读 · 2012年12月31日

车载激光扫描点云与全景影像的高精度配准方法

国家自然科学基金

0+阅读 · 2012年12月31日

心脏植入电子装置早期感染的诊断研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向智能视频监控的高度多摄像机信息融合

国家自然科学基金

2+阅读 · 2009年12月31日

基于FPGA+ARM的电力谐波检测方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

SAR图像二次成像

国家自然科学基金

5+阅读 · 2008年12月31日

Attention in Attention: Modeling Context Correlation for Efficient Video Classification

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

VSA: Learning Varied-Size Window Attention in Vision Transformers

VSA: Learning Varied-Size Window Attention in Vision Transformers

Arxiv

0+阅读 · 2022年4月18日

Hierarchical Transformers Are More Efficient Language Models

Arxiv

3+阅读 · 2022年4月16日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员

文章信息

相关主题

注意力机制

相关VIP内容

南京大学医学院最新《Transformer医学图像处理应用》综述论文，Transformers in Medical Image Analysis: A Review

南京大学医学院最新《Transformer医学图像处理应用》综述论文，Transformers in Medical Image Analysis: A Review

专知会员服务

45+阅读 · 2022年3月1日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

319+阅读 · 2020年11月26日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

165+阅读 · 2020年3月18日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

Keras François Chollet 《Deep Learning with Python 》, 386页pdf

专知会员服务

160+阅读 · 2019年10月12日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

扩散模型中的 Transformer：图像生成及其延展应用询问 ChatGPT

281页pdf《神经网络设计入门》

【普林斯顿博士论文】以奖励推动生成式人工智能的发展：奖励引导生成的理论与方法

中文版 | 火力支援与巡飞弹药的未来（附原文）

相关资讯

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium3

【ICIG2021】Check out the hot new trailer of ICIG2021 Symposium3

中国图象图形学学会CSIG

0+阅读 · 2021年11月9日

【ICIG2021】Latest News & Announcements of the Plenary Talk1

【ICIG2021】Latest News & Announcements of the Plenary Talk1

中国图象图形学学会CSIG

0+阅读 · 2021年11月1日

【ICIG2021】Latest News & Announcements of the Industry Talk1

【ICIG2021】Latest News & Announcements of the Industry Talk1

中国图象图形学学会CSIG

0+阅读 · 2021年7月28日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

相关论文

Attention in Attention: Modeling Context Correlation for Efficient Video Classification

Arxiv

0+阅读 · 2022年4月20日

Fourier Image Transformer

Arxiv

2+阅读 · 2022年4月19日

Multimodal Token Fusion for Vision Transformers

Arxiv

3+阅读 · 2022年4月19日

VSA: Learning Varied-Size Window Attention in Vision Transformers

VSA: Learning Varied-Size Window Attention in Vision Transformers

Arxiv

0+阅读 · 2022年4月18日

Hierarchical Transformers Are More Efficient Language Models

Arxiv

3+阅读 · 2022年4月16日

TubeR: Tubelet Transformer for Video Action Detection

Arxiv

0+阅读 · 2022年4月15日

Transformers in Medical Image Analysis: A Review

Transformers in Medical Image Analysis: A Review

Arxiv

40+阅读 · 2022年2月24日

A Survey of Visual Transformers

Arxiv

39+阅读 · 2021年11月11日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

16+阅读 · 2018年1月31日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

相关基金

CSP I-plus 修饰的内皮抑制素靶向抑制肝细胞癌转移的研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉注意与协同学耦合机制下的农田杂草图像分割及检测

国家自然科学基金

0+阅读 · 2013年12月31日

几何结构形变空间的几何拓扑

国家自然科学基金

0+阅读 · 2012年12月31日

ERG介导组蛋白修饰调控CRMP4失活启动前列腺癌转移的分子机制

国家自然科学基金

0+阅读 · 2012年12月31日

结构基元可辨尺度下准周期织物纹理的表征、解耦及特征提取研究

国家自然科学基金

0+阅读 · 2012年12月31日

车载激光扫描点云与全景影像的高精度配准方法

国家自然科学基金

0+阅读 · 2012年12月31日

心脏植入电子装置早期感染的诊断研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向智能视频监控的高度多摄像机信息融合

国家自然科学基金

2+阅读 · 2009年12月31日

基于FPGA+ARM的电力谐波检测方法研究

国家自然科学基金

1+阅读 · 2009年12月31日

SAR图像二次成像

国家自然科学基金

5+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员