Transformers are the mainstream of NLP applications and are becoming increasingly popular in other domains such as Computer Vision. Despite the improvements in model quality, the enormous computation costs make Transformers difficult at deployment, especially when the sequence length is large in emerging applications. Processing attention mechanism as the essential component of Transformer is the bottleneck of execution due to the quadratic complexity. Prior art explores sparse patterns in attention to support long sequence modeling, but those pieces of work are on static or fixed patterns. We demonstrate that the sparse patterns are dynamic, depending on input sequences. Thus, we propose the Dynamic Sparse Attention (DSA) that can efficiently exploit the dynamic sparsity in the attention of Transformers. Compared with other methods, our approach can achieve better trade-offs between accuracy and model complexity. Moving forward, we identify challenges and provide solutions to implement DSA on existing hardware (GPUs) and specialized hardware in order to achieve practical speedup and efficiency improvements for Transformer execution.


翻译:变异器是NLP应用程序的主流,在计算机视野等其他领域越来越受欢迎。尽管模型质量有所改善,但巨大的计算成本使得变异器难以部署,特别是在新应用中序列长度较大的情况下。 变异器的基本组成部分是四面形复杂性造成的执行瓶颈。 先前的艺术探索了稀疏的模式,以支持长序列建模,但这些作品是静态或固定的。 我们证明,稀疏的模式是动态的,取决于输入序列。 因此,我们提出动态微缩注意(DSA), 能够有效地利用变异器注意力中的动态聚变。 与其他方法相比, 我们的方法可以更好地在精度和模型复杂性之间实现权衡。 向前看,我们找出挑战,并提供解决方案,在现有硬件和专门硬件上实施DSA(GPUs)和专门硬件,以便实现变异器执行的实际加速和效率改进。

0
下载
关闭预览

相关内容

Attention机制最早是在视觉图像领域提出来的,但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14],他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近,如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。
最新《Transformers模型》教程,64页ppt
专知会员服务
311+阅读 · 2020年11月26日
深度强化学习策略梯度教程,53页ppt
专知会员服务
180+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2017年11月27日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
6+阅读 · 2017年11月27日
相关论文
Top
微信扫码咨询专知VIP会员