【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似 - 专知VIP

会员服务 ·

1

Transformer · 自注意力机制 · 论文 ·

2021 年 10 月 26 日

【NeurIPS2021】去掉softmax后Transformer会更好吗？复旦&华为诺亚提出SOFT：轻松搞定线性近似

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文是复旦大学&华为诺亚关于Transformer中自注意力机制复杂度的深度思考，首次提出了一种新颖的softmax-free 的Transformer 。本文从softmax self-attention局限性出发，分析了其存在的挑战；然后由此提出了线性复杂度的SOFT；再针对线性SOFT存在的训练问题，提出了一种具有理论保证的近似方案。所提SOFT在ImageNet分类任务上取得了比已有CNN、Transformer更佳的精度-复杂度均衡。

ViT通过图像块序列化+自注意力机制将不同CV任务性能往前推了一把。然而，自注意力机制会带来更高的计算复杂度与内存占用。在NLP领域已有不同的方案尝试采用线性复杂度对自注意力进行近似。然而，本文的深入分析表明：NLP中的近似方案在CV中缺乏理论支撑或者无效。

我们进一步分析了其局限性根因：softmax self-attention 。具体来说，传统自注意力通过计算token之间的点乘并归一化得到自注意力。softmax操作会对后续的线性近似带来极大挑战。基于该发现，本文首次提出了SOFT(softmax-free transformer )。

为移除自注意力中的softmax，我们采用高斯核函数替代点乘相似性且无需进一步的归一化。这就使得自注意力矩阵可以通过低秩矩阵分析近似。近似的鲁棒性可以通过计算其MP逆(Moore-Penrose Inverse)得到。

ImageNet数据集上的实验结果表明：所提SOFT显著改善了现有ViT方案的计算效率。更为关键的是：SOFT的线性复杂度可以允许更长的token序列，进而取得更佳的精度-复杂度均衡。

成为VIP会员查看完整内容

20

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗?

专知会员服务

13+阅读 · 2021年8月20日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

专知会员服务

29+阅读 · 2020年10月11日

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

专知会员服务

96+阅读 · 2020年9月23日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【CVPR2020-港中文】图像识别中的自注意力探索

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

华为诺亚、北大提出GhostNet，使用线性变换生成特征图，准确率超MobileNet v3 | CVPR 2020

华为诺亚、北大提出GhostNet，使用线性变换生成特征图，准确率超MobileNet v3 | CVPR 2020

CSDN

5+阅读 · 2020年2月27日

重磅开源！ ICCV 2019，华为诺亚提出无需数据网络压缩技术

重磅开源！ ICCV 2019，华为诺亚提出无需数据网络压缩技术

新智元

5+阅读 · 2019年9月7日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

GCNet：当Non-local遇见SENet

GCNet：当Non-local遇见SENet

极市平台

11+阅读 · 2019年5月9日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

重磅突破：从36.8到52.52，引入自我注意力模块的SAGAN

重磅突破：从36.8到52.52，引入自我注意力模块的SAGAN

论智

5+阅读 · 2018年5月24日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

SoT: Delving Deeper into Classification Head for Transformer

Arxiv

1+阅读 · 2021年12月18日

Formal Verification of a Distributed Dynamic Reconfiguration Protocol

Arxiv

0+阅读 · 2021年12月17日

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Arxiv

6+阅读 · 2021年12月6日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Residual Attention: A Simple but Effective Method for Multi-Label Recognition

Residual Attention: A Simple but Effective Method for Multi-Label Recognition

Arxiv

6+阅读 · 2021年8月5日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

A Primer in BERTology: What we know about how BERT works

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

VIP会员

相关主题

自注意力机制

相关VIP内容

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【ICML2021】生成式视频转换器Transformers: 物体可以是文字吗?

专知会员服务

13+阅读 · 2021年8月20日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

【KDD2021】基于神经结构搜索的任务无关与自适应BERT压缩

专知会员服务

9+阅读 · 2021年6月5日

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

【NeurIPS2020-北大】非凸优化裁剪算法的改进分析

专知会员服务

29+阅读 · 2020年10月11日

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

专知会员服务

96+阅读 · 2020年9月23日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【CVPR2020-港中文】图像识别中的自注意力探索

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

【伯克利】再思考 Transformer中的Batch Normalization

【伯克利】再思考 Transformer中的Batch Normalization

专知会员服务

41+阅读 · 2020年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

华为诺亚、北大提出GhostNet，使用线性变换生成特征图，准确率超MobileNet v3 | CVPR 2020

华为诺亚、北大提出GhostNet，使用线性变换生成特征图，准确率超MobileNet v3 | CVPR 2020

CSDN

5+阅读 · 2020年2月27日

重磅开源！ ICCV 2019，华为诺亚提出无需数据网络压缩技术

重磅开源！ ICCV 2019，华为诺亚提出无需数据网络压缩技术

新智元

5+阅读 · 2019年9月7日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

GCNet：当Non-local遇见SENet

GCNet：当Non-local遇见SENet

极市平台

11+阅读 · 2019年5月9日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

进一步改进GPT和BERT：使用Transformer的语言模型

进一步改进GPT和BERT：使用Transformer的语言模型

机器之心

16+阅读 · 2019年5月1日

重磅突破：从36.8到52.52，引入自我注意力模块的SAGAN

重磅突破：从36.8到52.52，引入自我注意力模块的SAGAN

论智

5+阅读 · 2018年5月24日

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

Ian Goodfellow等提出自注意力GAN，ImageNet图像合成获最优结果！

新智元

11+阅读 · 2018年5月24日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

python文本相似度计算

python文本相似度计算

北京思腾合力科技有限公司

24+阅读 · 2017年11月6日

相关论文

SoT: Delving Deeper into Classification Head for Transformer

Arxiv

1+阅读 · 2021年12月18日

Formal Verification of a Distributed Dynamic Reconfiguration Protocol

Arxiv

0+阅读 · 2021年12月17日

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

Arxiv

6+阅读 · 2021年12月6日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Residual Attention: A Simple but Effective Method for Multi-Label Recognition

Residual Attention: A Simple but Effective Method for Multi-Label Recognition

Arxiv

6+阅读 · 2021年8月5日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

End-to-End Video Instance Segmentation with Transformers

Arxiv

10+阅读 · 2021年3月24日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

A Primer in BERTology: What we know about how BERT works

A Primer in BERTology: What we know about how BERT works

Arxiv

34+阅读 · 2020年2月27日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

微信扫码咨询专知VIP会员