Long Short-Term Memory (LSTM) recurrent networks are frequently used for tasks involving time-sequential data such as speech recognition. However, it is difficult to deploy these networks on hardware to achieve high throughput and low latency because the fully connected structure makes LSTM networks a memory-bounded algorithm. Previous LSTM accelerators either exploited weight spatial sparsity or temporal activation sparsity. This paper proposes a new accelerator called "Spartus" that exploits spatio-temporal sparsity to achieve ultra-low latency inference. The spatial sparsity is induced using our proposed pruning method called Column-Balanced Targeted Dropout (CBTD), which structures sparse weight matrices for balanced workload. It achieved up to 96% weight sparsity with negligible accuracy difference for an LSTM network trained on a TIMIT phone recognition task. To induce temporal sparsity in LSTM, we create the DeltaLSTM by extending the previous DeltaGRU method to the LSTM network. This combined sparsity simultaneously saves on the weight memory access and associated arithmetic operations. Spartus was implemented on a Xilinx Zynq-7100 FPGA. The Spartus per-sample latency for a single DeltaLSTM layer of 1024 neurons averages 1 us. Spartus achieved 9.4 TOp/s effective batch-1 throughput and 1.1 TOp/J energy efficiency, which, respectively, are 4X and 7X higher than the previous state-of-the-art.
翻译:长期内存(LSTM) 常规网络经常用于涉及时间序列数据的任务,如语音识别等。然而,很难将这些网络部署在硬件上,以实现高通量和低延度,因为完全连接的结构使LSTM网络成为内存算法。 以前的LSTM加速器, 或者是开发了重量空间宽度, 或者是时间感应器。 本文提议了一个新的加速器, 名为“ 出入口”, 利用时空宽度, 实现超低通度推断。 空间宽度是用我们提议的运行方法, 实现高通量和低静度。 完全连接的结构使LSTM网络成为了低重量、 低静态、 低静态、 低静态和低静态。 S-100 双轨, 通过S- 平流流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 平流、 。