The deployment of AI models on low-power, real-time edge devices requires accelerators for which energy, latency, and area are all first-order concerns. There are many approaches to enabling deep neural networks (DNNs) in this domain, including pruning, quantization, compression, and binary neural networks (BNNs), but with the emergence of the "extreme edge", there is now a demand for even more efficient models. In order to meet the constraints of ultra-low-energy devices, we propose ULEEN, a model architecture based on weightless neural networks. Weightless neural networks (WNNs) are a class of neural model which use table lookups, not arithmetic, to perform computation. The elimination of energy-intensive arithmetic operations makes WNNs theoretically well suited for edge inference; however, they have historically suffered from poor accuracy and excessive memory usage. ULEEN incorporates algorithmic improvements and a novel training strategy inspired by BNNs to make significant strides in improving accuracy and reducing model size. We compare FPGA and ASIC implementations of an inference accelerator for ULEEN against edge-optimized DNN and BNN devices. On a Xilinx Zynq Z-7045 FPGA, we demonstrate classification on the MNIST dataset at 14.3 million inferences per second (13 million inferences/Joule) with 0.21 $\mu$s latency and 96.2% accuracy, while Xilinx FINN achieves 12.3 million inferences per second (1.69 million inferences/Joule) with 0.31 $\mu$s latency and 95.83% accuracy. In a 45nm ASIC, we achieve 5.1 million inferences/Joule and 38.5 million inferences/second at 98.46% accuracy, while a quantized Bit Fusion model achieves 9230 inferences/Joule and 19,100 inferences/second at 99.35% accuracy. In our search for ever more efficient edge devices, ULEEN shows that WNNs are deserving of consideration.


翻译:AI模型在低功耗,实时边缘设备上的部署需要加速器,其中能量,延迟和面积都是一级关注点。使深度神经网络(DNN)在这个领域中的实际运用变得有许多不同的方法,其中包括剪枝,量化,压缩和二进制神经网络(BNN),但随着“极限边缘”的出现,现在需要更高效的模型。为了满足超低功耗设备的限制,我们提出了ULEEN ,这是一种基于零权重神经网络的模型体系结构。零权重神经网络(WNN)是一种使用查表而非算术来执行计算的神经模型。不通过大量算数操作而实现计算使WNN在边缘推理方面理论上非常适合;但是,它们在历史上在精度和内存使用方面一直存在问题。ULEEN包括算法改进和受BNN启发的新型训练策略,以大幅改善准确性,并减少模型大小。我们将ULEEN的推理加速器的FPGA和ASIC实现与面向边缘优化的DNN和BNN设备进行了比较。在Xilinx Zynq Z-7045 FPGA上,我们展示了MNIST数据集上的分类,速度达到了每秒14.3亿(每焦耳13百万次推断),延迟0.21微秒,精度达到了96.2%,而Xilinx FINN则实现了每秒12.3亿次推断(每焦耳1.69百万次推断),延迟0.31微秒,精度为95.83%。在45纳米ASIC中,我们实现了每焦耳5.1百万次推断,每秒38.5亿次推断,精度为98.46%,而量子位融合模型则实现了每焦耳9230次和每秒19100次的推断,精度为99.35%。在我们寻找更高效的边缘设备时,ULEEN表明WNN值得考虑。

0
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年7月15日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
VIP会员
相关VIP内容
专知会员服务
31+阅读 · 2021年7月15日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
相关基金
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员