Long Short-Term Memory (LSTM) recurrent networks are frequently used for tasks involving time-sequential data such as speech recognition. However, it is difficult to deploy these networks on hardware to achieve high throughput and low latency because the fully connected structure makes LSTM networks a memory-bounded algorithm. Previous LSTM accelerators either exploited weight spatial sparsity or temporal activation sparsity. This paper proposes a new accelerator called "Spartus" that exploits spatio-temporal sparsity to achieve ultra-low latency inference. The spatial sparsity is induced using our proposed pruning method called Column-Balanced Targeted Dropout (CBTD), which structures sparse weight matrices for balanced workload. It achieved up to 96% weight sparsity with negligible accuracy difference for an LSTM network trained on a TIMIT phone recognition task. To induce temporal sparsity in LSTM, we create the DeltaLSTM by extending the previous DeltaGRU method to the LSTM network. This combined sparsity simultaneously saves on the weight memory access and associated arithmetic operations. Spartus was implemented on a Xilinx Zynq-7100 FPGA. The Spartus per-sample latency for a single DeltaLSTM layer of 1024 neurons averages 1 us. Spartus achieved 9.4 TOp/s effective batch-1 throughput and 1.1 TOp/J energy efficiency, which, respectively, are 4X and 7X higher than the previous state-of-the-art.


翻译:长期内存(LSTM) 常规网络经常用于涉及时间序列数据的任务,如语音识别等。然而,很难将这些网络部署在硬件上,以实现高通量和低延度,因为完全连接的结构使LSTM网络成为内存算法。 以前的LSTM加速器, 或者是开发了重量空间宽度, 或者是时间感应器。 本文提议了一个新的加速器, 名为“ 出入口”, 利用时空宽度, 实现超低通度推断。 空间宽度是用我们提议的运行方法, 实现高通量和低静度。 完全连接的结构使LSTM网络成为了低重量、 低静态、 低静态、 低静态和低静态。 S-100 双轨, 通过S- 平流流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 。

0
下载
关闭预览

相关内容

【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
64+阅读 · 2021年8月20日
【CVPR2021】细粒度多标签分类
专知会员服务
61+阅读 · 2021年3月8日
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
103+阅读 · 2020年1月13日
【BAAI|2019】用深度学习模拟原子间势,王涵  (附pdf)
专知会员服务
18+阅读 · 2019年11月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
深度学习模型剪枝:Slimmable Networks三部曲
极市平台
3+阅读 · 2020年2月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
递归神经网络
Datartisan数据工匠
4+阅读 · 2018年8月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年10月14日
Arxiv
28+阅读 · 2021年9月18日
Arxiv
5+阅读 · 2020年10月14日
Arxiv
4+阅读 · 2020年3月27日
Arxiv
5+阅读 · 2018年5月5日
VIP会员
相关VIP内容
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
64+阅读 · 2021年8月20日
【CVPR2021】细粒度多标签分类
专知会员服务
61+阅读 · 2021年3月8日
MATLAB玩转深度学习?新书「MATLAB Deep Learning」162页pdf
专知会员服务
103+阅读 · 2020年1月13日
【BAAI|2019】用深度学习模拟原子间势,王涵  (附pdf)
专知会员服务
18+阅读 · 2019年11月21日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
深度学习模型剪枝:Slimmable Networks三部曲
极市平台
3+阅读 · 2020年2月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
递归神经网络
Datartisan数据工匠
4+阅读 · 2018年8月2日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】MXNet深度情感分析实战
机器学习研究会
16+阅读 · 2017年10月4日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员