我们引入蒙特卡罗注意力(MCA),这是一种用于降低Transformer架构中自注意机制的计算成本的随机近似方法。MCA利用了输入序列中每个标记的重要性随它们的注意力分数而变化的事实;因此,当编码低关注度的标记时,一定程度的错误是可以容忍的。利用近似矩阵乘法,MCA应用不同的误差边界对输入标记进行编码,使得那些注意力得分较低的标记的计算精度较低,而显著元素的误差最小。MCA可以与其他注意力优化方案并行运行,且不需要修改模型。我们研究了理论误差范围,并证明了在GLUE基准中,MCA将各种Transformer模型的注意力复杂度(FLOPS)降低了11倍,而不影响模型精度。

https://www.zhuanzhi.ai/paper/6b33480c8d45b3826128eb0c336d1070

成为VIP会员查看完整内容
19

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
「深度学习注意力机制 」最新TKDE2022研究综述
专知会员服务
100+阅读 · 2022年3月29日
【AAAI2022】基于分层随机注意的Transformer 不确定性估计
专知会员服务
28+阅读 · 2021年12月29日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
19+阅读 · 2021年12月21日
【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
19+阅读 · 2021年5月4日
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
「深度学习注意力机制 」TKDE 2022研究综述
新智元
5+阅读 · 2022年4月8日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
自然语言处理中注意力机制综述
黑龙江大学自然语言处理实验室
11+阅读 · 2019年2月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Fast Circular Pattern Matching
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月19日
ResT V2: Simpler, Faster and Stronger
Arxiv
0+阅读 · 2022年4月15日
VIP会员
相关VIP内容
「深度学习注意力机制 」最新TKDE2022研究综述
专知会员服务
100+阅读 · 2022年3月29日
【AAAI2022】基于分层随机注意的Transformer 不确定性估计
专知会员服务
28+阅读 · 2021年12月29日
【AAAI2022】通过多任务学习改进证据深度学习
专知会员服务
19+阅读 · 2021年12月21日
【AAAI2022】基于双流更新的视觉Transformer动态加速方法
专知会员服务
23+阅读 · 2021年12月11日
【WSDM2022】基于约束聚类学习离散表示的高效密集检索
专知会员服务
26+阅读 · 2021年11月16日
专知会员服务
11+阅读 · 2021年7月4日
专知会员服务
19+阅读 · 2021年5月4日
【AAAI2021】记忆门控循环网络
专知会员服务
47+阅读 · 2020年12月28日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
相关资讯
「深度学习注意力机制 」TKDE 2022研究综述
新智元
5+阅读 · 2022年4月8日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
自然语言处理中注意力机制综述
黑龙江大学自然语言处理实验室
11+阅读 · 2019年2月26日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员