Attention mechanisms form the backbone of state-of-the-art machine learning models for a variety of tasks. Deploying them on deep neural network (DNN) accelerators, however, is prohibitively challenging especially under long sequences. Operators in attention layers exhibit limited reuse and quadratic growth in memory footprint, leading to severe memory-boundedness. This paper introduces a new attention-tailored dataflow, termed FLAT, which leverages operator fusion, loop-nest optimizations, and interleaved execution. It increases the effective memory bandwidth by efficiently utilizing the high-bandwidth, low-capacity on-chip buffer and thus achieves better run time and compute resource utilization. We term FLAT-compatible accelerators ATTACC. In our evaluation, ATTACC achieves 1.94x and 1.76x speedup and 49% and 42% of energy reduction comparing to state-of-the-art edge and cloud accelerators.


翻译:关注机制是各种任务最先进的机器学习模型的支柱。 但是,在深神经网络(DNN)加速器(DNN)加速器上部署它们尤其具有巨大的挑战性。 关注层的操作员在记忆足迹上表现出有限的再利用和二次增长,导致严重的记忆束缚。 本文介绍了一种新的关注量数据流, 称为FLAT, 利用操作员的聚合、 循环内优化和间断执行。 它通过有效利用高带宽、 低容量的芯片缓冲器来增加有效的记忆带宽, 从而实现更好的运行时间和计算资源的利用。 我们称之为FLAT- 兼容加速器ATACT。 在我们的评估中, ATACC 实现了1.94x 和 1.76x 速度, 以及 49% 和 42% 的能源减少量, 与最先进的边缘和云加速器相比。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
319+阅读 · 2020年11月26日
因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
159+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
8+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
18+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关VIP内容
最新《Transformers模型》教程,64页ppt
专知会员服务
319+阅读 · 2020年11月26日
因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
159+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
8+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
已删除
将门创投
18+阅读 · 2019年2月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
从Seq2seq到Attention模型到Self Attention(二)
量化投资与机器学习
23+阅读 · 2018年10月9日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Self-Attention Graph Pooling
Arxiv
5+阅读 · 2019年4月17日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Efficient and Effective $L_0$ Feature Selection
Arxiv
5+阅读 · 2018年8月7日
Arxiv
27+阅读 · 2017年12月6日
Top
微信扫码咨询专知VIP会员