【AAAI2022】注意力机制的快速蒙特卡罗近似 - 专知

会员服务 ·

0

【AAAI2022】注意力机制的快速蒙特卡罗近似

2022 年 2 月 5 日 专知

我们引入蒙特卡罗注意力(MCA)，这是一种用于降低Transformer架构中自注意机制的计算成本的随机近似方法。MCA利用了输入序列中每个标记的重要性随它们的注意力分数而变化的事实;因此，当编码低关注度的标记时，一定程度的错误是可以容忍的。利用近似矩阵乘法，MCA应用不同的误差边界对输入标记进行编码，使得那些注意力得分较低的标记的计算精度较低，而显著元素的误差最小。MCA可以与其他注意力优化方案并行运行，且不需要修改模型。我们研究了理论误差范围，并证明了在GLUE基准中，MCA将各种Transformer模型的注意力复杂度(FLOPS)降低了11倍，而不影响模型精度。

https://www.zhuanzhi.ai/paper/6b33480c8d45b3826128eb0c336d1070

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“FMCA” 就可以获取《【AAAI2022】注意力机制的快速蒙特卡罗近似》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取70000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取70000+AI主题知识资源

登录查看更多

0

相关内容

蒙特卡罗

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知会员服务

103+阅读 · 2022年3月29日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知会员服务

29+阅读 · 2021年12月29日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

20+阅读 · 2021年12月21日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知会员服务

27+阅读 · 2021年11月16日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

基于改进卷积神经网络的短文本分类模型

基于改进卷积神经网络的短文本分类模型

专知会员服务

26+阅读 · 2020年7月22日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

专知

0+阅读 · 2022年2月9日

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

专知

0+阅读 · 2022年2月4日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【AAAI2022】SVT-Net的超轻量化网络

【AAAI2022】SVT-Net的超轻量化网络

专知

5+阅读 · 2021年12月5日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知

3+阅读 · 2021年12月2日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知

0+阅读 · 2021年11月16日

【ICML2021】低秩Sinkhorn 分解

【ICML2021】低秩Sinkhorn 分解

专知

9+阅读 · 2021年8月20日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知

2+阅读 · 2021年5月4日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知

0+阅读 · 2021年4月21日

两类分数阶微分方程有效数值计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

逐阶优化的快速蒙特卡罗三维云大气辐射传输模式研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于影像关联层次模型的遥感影像检索研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于扩散近似方程的光学成像反问题的重构模型和算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于偏微分方程和非局部方法的图像处理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

污染土壤中磷肥影响铜植物有效性机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

Hessian Averaging in Stochastic Newton Methods Achieves Superlinear Convergence

Arxiv

0+阅读 · 2022年4月20日

Tight Last-Iterate Convergence of the Extragradient Method for Constrained Monotone Variational Inequalities

Arxiv

0+阅读 · 2022年4月20日

A stochastic Stein Variational Newton method

Arxiv

0+阅读 · 2022年4月19日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

Numerical computation of the equilibrium-reduced density matrix for strongly coupled open quantum systems

Arxiv

0+阅读 · 2022年4月18日

Linear Programs with Polynomial Coefficients and Applications to 1D Cellular Automata

Arxiv

0+阅读 · 2022年4月15日

An Introductory Review of Spiking Neural Network and Artificial Neural Network: From Biological Intelligence to Artificial Intelligence

Arxiv

0+阅读 · 2022年4月9日

Matrix Decomposition and Applications

Arxiv

54+阅读 · 2022年1月1日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Contextual and Position-Aware Factorization Machines for Sentiment Classification

Arxiv

13+阅读 · 2018年1月18日

VIP会员

相关主题

注意力机制

相关VIP内容

「深度学习注意力机制」最新TKDE2022研究综述

「深度学习注意力机制」最新TKDE2022研究综述

专知会员服务

103+阅读 · 2022年3月29日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知会员服务

29+阅读 · 2021年12月29日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知会员服务

20+阅读 · 2021年12月21日

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

【AAAI2022】基于双流更新的视觉Transformer动态加速方法

专知会员服务

24+阅读 · 2021年12月11日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知会员服务

27+阅读 · 2021年11月16日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知会员服务

20+阅读 · 2021年5月4日

【AAAI2021】记忆门控循环网络

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

基于改进卷积神经网络的短文本分类模型

基于改进卷积神经网络的短文本分类模型

专知会员服务

26+阅读 · 2020年7月22日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《在单一作战合成环境（SSE）中运用人工智能与大型语言模型以提供灵活人文地形及可信角色组》报告

《俄罗斯的未来战争方式第二部分：核威慑》报告

《提示战争：大语言模型如何决定军事干预》报告

《俄罗斯的未来战争方式第三部分：军事改革》报告

相关资讯

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

【AAAI2022】基于协调域编码器和配对分类器的多源域适应

专知

0+阅读 · 2022年2月9日

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

专知

0+阅读 · 2022年2月4日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【AAAI2022】通过多任务学习改进证据深度学习

【AAAI2022】通过多任务学习改进证据深度学习

专知

2+阅读 · 2021年12月21日

【AAAI2022】SVT-Net的超轻量化网络

【AAAI2022】SVT-Net的超轻量化网络

专知

5+阅读 · 2021年12月5日

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

【NeurIPS 2021】流形上的注意力机制：规范等变的Transformer

专知

3+阅读 · 2021年12月2日

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

【WSDM2022】基于约束聚类学习离散表示的高效密集检索

专知

0+阅读 · 2021年11月16日

【ICML2021】低秩Sinkhorn 分解

【ICML2021】低秩Sinkhorn 分解

专知

9+阅读 · 2021年8月20日

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

【CVPR2021】基于噪声鲁棒深度学习的快速元更新策略

专知

2+阅读 · 2021年5月4日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知

0+阅读 · 2021年4月21日

相关基金

两类分数阶微分方程有效数值计算方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

GPU程序访存行为分析和优化关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

逐阶优化的快速蒙特卡罗三维云大气辐射传输模式研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于影像关联层次模型的遥感影像检索研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于扩散近似方程的光学成像反问题的重构模型和算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于偏微分方程和非局部方法的图像处理模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

污染土壤中磷肥影响铜植物有效性机制研究

国家自然科学基金

0+阅读 · 2009年12月31日

线性积分方程的Galerkin快速谱方法

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

Hessian Averaging in Stochastic Newton Methods Achieves Superlinear Convergence

Arxiv

0+阅读 · 2022年4月20日

Tight Last-Iterate Convergence of the Extragradient Method for Constrained Monotone Variational Inequalities

Arxiv

0+阅读 · 2022年4月20日

A stochastic Stein Variational Newton method

Arxiv

0+阅读 · 2022年4月19日

Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Arxiv

0+阅读 · 2022年4月18日

Numerical computation of the equilibrium-reduced density matrix for strongly coupled open quantum systems

Arxiv

0+阅读 · 2022年4月18日

Linear Programs with Polynomial Coefficients and Applications to 1D Cellular Automata

Arxiv

0+阅读 · 2022年4月15日

An Introductory Review of Spiking Neural Network and Artificial Neural Network: From Biological Intelligence to Artificial Intelligence

Arxiv

0+阅读 · 2022年4月9日

Matrix Decomposition and Applications

Arxiv

54+阅读 · 2022年1月1日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Contextual and Position-Aware Factorization Machines for Sentiment Classification

Arxiv

13+阅读 · 2018年1月18日

大家都在搜

大型语言模型

生成式人工智能

无人机系统

蓝牙安全攻防

再见，TD-SCDMA！

微信扫码咨询专知VIP会员