Vision transformers (ViTs) have pushed the state-of-the-art for various visual recognition tasks by patch-wise image tokenization followed by self-attention. However, the employment of self-attention modules results in a quadratic complexity in both computation and memory usage. Various attempts on approximating the self-attention computation with linear complexity have been made in Natural Language Processing. However, an in-depth analysis in this work shows that they are either theoretically flawed or empirically ineffective for visual recognition. We further identify that their limitations are rooted in keeping the softmax self-attention during approximations. Specifically, conventional self-attention is computed by normalizing the scaled dot-product between token feature vectors. Keeping this softmax operation challenges any subsequent linearization efforts. Based on this insight, for the first time, a softmax-free transformer or SOFT is proposed. To remove softmax in self-attention, Gaussian kernel function is used to replace the dot-product similarity without further normalization. This enables a full self-attention matrix to be approximated via a low-rank matrix decomposition. The robustness of the approximation is achieved by calculating its Moore-Penrose inverse using a Newton-Raphson method. Extensive experiments on ImageNet show that our SOFT significantly improves the computational efficiency of existing ViT variants. Crucially, with a linear complexity, much longer token sequences are permitted in SOFT, resulting in superior trade-off between accuracy and complexity.


翻译:视觉变压器( ViTs) 推动了各种视觉识别任务的最先进技术, 其方法是通过贴近时保持软模量自我自省, 并随后自我注意。 但是, 使用自我注意模块在计算和记忆使用方面造成四重复杂。 在自然语言处理中, 尝试了将自我注意计算与线性复杂程度相匹配的各种尝试。 但是, 这项工作的深入分析显示, 它们要么在理论上存在缺陷, 要么在视觉识别上是无效的。 我们进一步确定它们的局限性的根源在于保持软模量自省在近似期间的自我注意。 具体地说, 常规自我注意是允许的, 将象征物向量向量矢量向产品之间调整成正态。 保持这种软模量操作对随后的线性努力提出了挑战。 基于这一认识, 第一次提出了软模量变压变压器或SOFT 。 为了消除自我注意的软成软体, Gausian 内核功能被用来在不进一步正常化的情况下取代软模相近似产品。 常规自定义的精度的精度的精度精度, 通过SOreval- prial- prealal comalalalalalal comaltistral rogration矩阵在通过Sloveal- degres- rofal- degal- rofal degal degal degal develde rofal commod commal commlusmlus rodu commbildsmlation commusmlation 上, commusmbildaldsmusmbildald 上, 上, 上, rotodal

0
下载
关闭预览

相关内容

【硬核书】矩阵代数基础,248页pdf
专知会员服务
84+阅读 · 2021年12月9日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
15+阅读 · 2020年7月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年12月30日
Arxiv
13+阅读 · 2019年11月14日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
VIP会员
相关VIP内容
【硬核书】矩阵代数基础,248页pdf
专知会员服务
84+阅读 · 2021年12月9日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
专知会员服务
76+阅读 · 2021年3月16日
专知会员服务
15+阅读 · 2020年7月27日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员