Spiking neural networks (SNNs) have been widely used due to their strong biological interpretability and high energy efficiency. With the introduction of the backpropagation algorithm and surrogate gradient, the structure of spiking neural networks has become more complex, and the performance gap with artificial neural networks has gradually decreased. However, most SNN hardware implementations for field-programmable gate arrays (FPGAs) cannot meet arithmetic or memory efficiency requirements, which significantly restricts the development of SNNs. They do not delve into the arithmetic operations between the binary spikes and synaptic weights or assume unlimited on-chip RAM resources by using overly expensive devices on small tasks. To improve arithmetic efficiency, we analyze the neural dynamics of spiking neurons, generalize the SNN arithmetic operation to the multiplex-accumulate operation, and propose a high-performance implementation of such operation by utilizing the DSP48E2 hard block in Xilinx Ultrascale FPGAs. To improve memory efficiency, we design a memory system to enable efficient synaptic weights and membrane voltage memory access with reasonable on-chip RAM consumption. Combining the above two improvements, we propose an FPGA accelerator that can process spikes generated by the firing neuron on-the-fly (FireFly). FireFly is the first SNN accelerator that incorporates DSP optimization techniques into SNN synaptic operations. FireFly is implemented on several FPGA edge devices with limited resources but still guarantees a peak performance of 5.53TOP/s at 300MHz. As a lightweight accelerator, FireFly achieves the highest computational density efficiency compared with existing research using large FPGA devices.


翻译:突触神经网络(SNNs)由于其强烈的生物解释性和高能量效率而得到了广泛应用。随着反向传播算法和代理梯度的引入,SNNs的结构变得更加复杂,并且与人工神经网络的性能差距逐渐缩小。然而,大多数基于可编程门阵列(FPGAs)的SNN硬件实现无法满足算术或内存效率要求,这极大地限制了SNNs的发展。它们没有深入研究二进制尖峰和突触权重之间的算术运算,或者使用过度昂贵的设备在小任务上假定拥有无限的片上RAM资源。为了提高算数效率,我们分析了尖峰神经元的神经动力学,将SNN算术操作概括为多路复用累加操作,并提出了一种高性能实现,通过利用Xilinx Ultrascale FPGAs中的DSP48E2硬核块实现此操作。为了提高内存效率,我们设计了一个内存系统,以合理的片上RAM消耗量实现了有效的突触权重和膜电压内存访问。结合以上两个改进,我们提出了一种FPGA加速器,可以在线处理由触发神经元生成的尖峰(FireFly)。 FireFly是第一个将DSP优化技术应用于SNN突触操作的SNN加速器。FireFly在多个FPGA边缘设备上实现,具有有限的资源,但仍保证在300MHz时的最高性能为5.53TOP / s。作为轻量级加速器,FireFly实现了与使用大型FPGA设备的现有研究相比最高的计算密度效率。

0
下载
关闭预览

相关内容

【Cell】可扩展深度图神经网络的高性能材料性能预测
专知会员服务
16+阅读 · 2022年5月4日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
114+阅读 · 2022年4月21日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
13+阅读 · 2019年5月15日
硬件加速神经网络综述
计算机研究与发展
24+阅读 · 2019年2月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
36+阅读 · 2018年1月13日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
1+阅读 · 2023年6月5日
VIP会员
相关VIP内容
【Cell】可扩展深度图神经网络的高性能材料性能预测
专知会员服务
16+阅读 · 2022年5月4日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
114+阅读 · 2022年4月21日
相关资讯
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
13+阅读 · 2019年5月15日
硬件加速神经网络综述
计算机研究与发展
24+阅读 · 2019年2月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
36+阅读 · 2018年1月13日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员