【AAAI2022】注意力机制的快速蒙特卡罗近似 - 专知VIP

会员服务 ·

4

注意力机制 · 蒙特卡罗方法 · 论文 ·

2022 年 2 月 5 日

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们引入蒙特卡罗注意力(MCA)，这是一种用于降低Transformer架构中自注意机制的计算成本的随机近似方法。MCA利用了输入序列中每个标记的重要性随它们的注意力分数而变化的事实;因此，当编码低关注度的标记时，一定程度的错误是可以容忍的。利用近似矩阵乘法，MCA应用不同的误差边界对输入标记进行编码，使得那些注意力得分较低的标记的计算精度较低，而显著元素的误差最小。MCA可以与其他注意力优化方案并行运行，且不需要修改模型。我们研究了理论误差范围，并证明了在GLUE基准中，MCA将各种Transformer模型的注意力复杂度(FLOPS)降低了11倍，而不影响模型精度。

https://www.zhuanzhi.ai/paper/6b33480c8d45b3826128eb0c336d1070

成为VIP会员查看完整内容

20

相关内容

注意力机制

注意力机制

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知会员服务

103+阅读 · 2022年3月29日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知会员服务

29+阅读 · 2021年12月29日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

20+阅读 · 2021年12月21日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知会员服务

27+阅读 · 2021年11月16日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

21+阅读 · 2020年5月16日

「深度学习注意力机制」TKDE 2022研究综述

「深度学习注意力机制」TKDE 2022研究综述

新智元

5+阅读 · 2022年4月8日

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知

4+阅读 · 2022年3月30日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知

0+阅读 · 2021年12月25日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知

3+阅读 · 2021年12月2日

解决Transformer固有缺陷：复旦大学等提出线性复杂度SOFT

解决Transformer固有缺陷：复旦大学等提出线性复杂度SOFT

PaperWeekly

0+阅读 · 2021年12月1日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

自然语言处理中注意力机制综述

自然语言处理中注意力机制综述

黑龙江大学自然语言处理实验室

11+阅读 · 2019年2月26日

两类分数阶微分方程有效数值计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知在电磁场积分方程快速计算中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

矩阵方程秩约束广义最佳逼近理论及应用

国家自然科学基金

1+阅读 · 2013年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于扩散近似方程的光学成像反问题的重构模型和算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

图上的快速分类、聚类算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于偏微分方程和非局部方法的图像处理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

线性分组码的构造及其译码算法

国家自然科学基金

0+阅读 · 2009年12月31日

Fast Circular Pattern Matching

Fast Circular Pattern Matching

Arxiv

0+阅读 · 2022年4月20日

Tight Last-Iterate Convergence of the Extragradient Method for Constrained Monotone Variational Inequalities

Arxiv

0+阅读 · 2022年4月20日

A stochastic Stein Variational Newton method

Arxiv

0+阅读 · 2022年4月19日

Fast computation of optimal damping parameters for linear vibrational systems

Arxiv

0+阅读 · 2022年4月19日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

Numerical computation of the equilibrium-reduced density matrix for strongly coupled open quantum systems

Arxiv

0+阅读 · 2022年4月18日

Generalized $b$-symbol weights of Linear Codes and $b$-symbol MDS Codes

Arxiv

0+阅读 · 2022年4月16日

ResT V2: Simpler, Faster and Stronger

ResT V2: Simpler, Faster and Stronger

Arxiv

0+阅读 · 2022年4月15日

An Introductory Review of Spiking Neural Network and Artificial Neural Network: From Biological Intelligence to Artificial Intelligence

Arxiv

0+阅读 · 2022年4月9日

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

Arxiv

15+阅读 · 2020年5月13日

VIP会员

相关主题

注意力机制

蒙特卡罗方法

相关VIP内容

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知会员服务

103+阅读 · 2022年3月29日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知会员服务

29+阅读 · 2021年12月29日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

20+阅读 · 2021年12月21日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知会员服务

27+阅读 · 2021年11月16日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘

专知会员服务

21+阅读 · 2020年5月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

「深度学习注意力机制」TKDE 2022研究综述

「深度学习注意力机制」TKDE 2022研究综述

新智元

5+阅读 · 2022年4月8日

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知

4+阅读 · 2022年3月30日

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

超越Swin！MoA-Transformer：将全局特征聚合到视觉Transformer

CVer

2+阅读 · 2022年2月8日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知

0+阅读 · 2021年12月25日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知

3+阅读 · 2021年12月2日

解决Transformer固有缺陷：复旦大学等提出线性复杂度SOFT

解决Transformer固有缺陷：复旦大学等提出线性复杂度SOFT

PaperWeekly

0+阅读 · 2021年12月1日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

自然语言处理中注意力机制综述

自然语言处理中注意力机制综述

黑龙江大学自然语言处理实验室

11+阅读 · 2019年2月26日

相关基金

两类分数阶微分方程有效数值计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

压缩感知在电磁场积分方程快速计算中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

矩阵方程秩约束广义最佳逼近理论及应用

国家自然科学基金

1+阅读 · 2013年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于扩散近似方程的光学成像反问题的重构模型和算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

图上的快速分类、聚类算法研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于偏微分方程和非局部方法的图像处理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

线性分组码的构造及其译码算法

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Fast Circular Pattern Matching

Fast Circular Pattern Matching

Arxiv

0+阅读 · 2022年4月20日

Tight Last-Iterate Convergence of the Extragradient Method for Constrained Monotone Variational Inequalities

Arxiv

0+阅读 · 2022年4月20日

A stochastic Stein Variational Newton method

Arxiv

0+阅读 · 2022年4月19日

Fast computation of optimal damping parameters for linear vibrational systems

Arxiv

0+阅读 · 2022年4月19日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

Numerical computation of the equilibrium-reduced density matrix for strongly coupled open quantum systems

Arxiv

0+阅读 · 2022年4月18日

Generalized $b$-symbol weights of Linear Codes and $b$-symbol MDS Codes

Arxiv

0+阅读 · 2022年4月16日

ResT V2: Simpler, Faster and Stronger

ResT V2: Simpler, Faster and Stronger

Arxiv

0+阅读 · 2022年4月15日

An Introductory Review of Spiking Neural Network and Artificial Neural Network: From Biological Intelligence to Artificial Intelligence

Arxiv

0+阅读 · 2022年4月9日

Machine Reading Comprehension: The Role of Contextualized Language Models and Beyond

Arxiv

15+阅读 · 2020年5月13日

微信扫码咨询专知VIP会员