Transformer architectures have achieved state-of-the-art results on a variety of sequence modeling tasks. However, their attention mechanism comes with a quadratic complexity in sequence lengths, making the computational overhead prohibitive, especially for long sequences. Attention context can be seen as a random-access memory with each token taking a slot. Under this perspective, the memory size grows linearly with the sequence length, and so does the overhead of reading from it. One way to improve the efficiency is to bound the memory size. We show that disparate approaches can be subsumed into one abstraction, attention with bounded-memory control (ABC), and they vary in their organization of the memory. ABC reveals new, unexplored possibilities. First, it connects several efficient attention variants that would otherwise seem apart. Second, this abstraction gives new insights--an established approach (Wang et al., 2020b) previously thought to be not applicable in causal attention, actually is. Last, we present a new instance of ABC, which draws inspiration from existing ABC approaches, but replaces their heuristic memory-organizing functions with a learned, contextualized one. Our experiments on language modeling, machine translation, and masked language model finetuning show that our approach outperforms previous efficient attention models; compared to the strong transformer baselines, it significantly improves the inference time and space efficiency with no or negligible accuracy loss.


翻译:变形器结构在一系列序列建模任务中取得了最先进的结果。 然而, 它们的注意机制在序列长度上带有四重复杂度, 使得计算高转盘的难度很高, 特别是对于长序列来说。 注意环境可以被视为随机的存取存储器, 每一个符号取一个槽。 在这个角度下, 内存的大小随着序列长度的长度而线性地增长, 从中读取的间接费用也是这样。 提高效率的方法之一是将内存的大小捆绑起来。 我们显示, 差异性的方法可以包含在一个抽象的、 受约束的摩擦控制(ABC) 的注意, 它们在记忆的组织结构中也各不相同。 ABC 显示, ABC 显示的是新的、 新的、 尚未探索的可能性。 首先, 它把一些有效的关注变量连接在一起, 而不是随机的。 其次, 这个抽象的、 给新的、 固定的方法( Wang et al., 2020b) 和 从它读到因果关系上的注意, 事实上, 我们展示了一个新的ABC 实例, 它从现有的ABC 方法中汲取了灵感, 但是取代了他们的记忆- mind- im- mort- mort- changinginginginginging lical lavel laction maildolfortical laction mading lactioning coming coming coming coming mainal laus views

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
【NUS-Xavier教授】注意力神经网络,79页ppt
专知会员服务
63+阅读 · 2021年11月25日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
64+阅读 · 2020年12月11日
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
83+阅读 · 2020年6月21日
注意力机制模型最新综述
专知会员服务
268+阅读 · 2019年10月20日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
3+阅读 · 2020年9月30日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
19+阅读 · 2018年3月28日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
【NUS-Xavier教授】注意力神经网络,79页ppt
专知会员服务
63+阅读 · 2021年11月25日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
64+阅读 · 2020年12月11日
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
【论文推荐】文本摘要简述
专知会员服务
69+阅读 · 2020年7月20日
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
83+阅读 · 2020年6月21日
注意力机制模型最新综述
专知会员服务
268+阅读 · 2019年10月20日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
意识是一种数学模式
CreateAMind
3+阅读 · 2019年6月24日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Bayesian Attention Belief Networks
Arxiv
9+阅读 · 2021年6月9日
Arxiv
5+阅读 · 2020年10月22日
Arxiv
3+阅读 · 2020年9月30日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
19+阅读 · 2018年3月28日
Arxiv
27+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员