Spiking neural networks (SNNs) have been widely used due to their strong biological interpretability and high energy efficiency. With the introduction of the backpropagation algorithm and surrogate gradient, the structure of spiking neural networks has become more complex, and the performance gap with artificial neural networks has gradually decreased. However, most SNN hardware implementations for field-programmable gate arrays (FPGAs) cannot meet arithmetic or memory efficiency requirements, which significantly restricts the development of SNNs. They do not delve into the arithmetic operations between the binary spikes and synaptic weights or assume unlimited on-chip RAM resources by using overly expensive devices on small tasks. To improve arithmetic efficiency, we analyze the neural dynamics of spiking neurons, generalize the SNN arithmetic operation to the multiplex-accumulate operation, and propose a high-performance implementation of such operation by utilizing the DSP48E2 hard block in Xilinx Ultrascale FPGAs. To improve memory efficiency, we design a memory system to enable efficient synaptic weights and membrane voltage memory access with reasonable on-chip RAM consumption. Combining the above two improvements, we propose an FPGA accelerator that can process spikes generated by the firing neuron on-the-fly (FireFly). FireFly is the first SNN accelerator that incorporates DSP optimization techniques into SNN synaptic operations, achieving a balanced resource consumption between LUTs and DSPs. FireFly is implemented on several FPGA edge devices with limited resources but still guarantees a peak performance of 5.53TSOP/s at 300MHz. As a lightweight accelerator, FireFly achieves the highest computational density efficiency compared with existing research using large FPGA devices.


翻译:脉冲神经网络(SNNs) 因其强大的生物解释性和高能效性而被广泛使用。随着反向传播算法和代理梯度的引入,脉冲神经网络的结构变得越来越复杂,与人工神经网络的性能差距逐渐缩小。然而,大多数用于可编程门阵列(FPGA)的SNN硬件实现无法满足算法或内存效率要求,这严重限制了SNN的发展。它们没有深入研究二进制尖脉和突触权值之间的算术运算,或者使用开销过高的设备在小任务上假设无限的芯片RAM资源。为了改善算术效率,我们分析了脉冲神经元的神经动力学,将SNN算术运算推广到多路复用累加运算,并利用Xilinx Ultrascale FPGA中的DSP48E2硬模块提出了一种高性能的实现方法。为了提高内存效率,我们设计了一种内存系统,使得突触权值和膜电压存储器的访问能够高效率地消耗合理的芯片RAM。结合以上两个改进,我们提出了一个 FPGA 加速器,可以处理由发射神经元生成的脉冲信号 (FireFly)。FireFly是第一个将DSP优化技术融入SNN突触操作的SNN加速器,实现了LUT和DSP之间的平衡资源消耗。FireFly在多个资源有限的FPGA边缘设备上实现,但仍能在300MHz的时钟频率下保证5.53千亿次OPS的峰值性能。作为轻量级加速器,FireFly在与使用大型FPGA设备的现有研究相比,实现了最高的计算密度效率。

0
下载
关闭预览

相关内容

神经网络加速器架构概述
专知会员服务
35+阅读 · 2022年4月23日
【2022新书】高效深度学习,Efficient Deep Learning Book
专知会员服务
115+阅读 · 2022年4月21日
面向FPGA的布局与布线技术研究综述
专知
0+阅读 · 2022年9月3日
einsum is all you needed!
极市平台
1+阅读 · 2022年7月27日
首次在智能手机上训练BERT和ResNet,能耗降35%
机器之心
0+阅读 · 2022年7月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关资讯
面向FPGA的布局与布线技术研究综述
专知
0+阅读 · 2022年9月3日
einsum is all you needed!
极市平台
1+阅读 · 2022年7月27日
首次在智能手机上训练BERT和ResNet,能耗降35%
机器之心
0+阅读 · 2022年7月24日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
26+阅读 · 2019年5月18日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员