Various hardware accelerators have been developed for energy-efficient and real-time inference of neural networks on edge devices. However, most training is done on high-performance GPUs or servers, and the huge memory and computing costs prevent training neural networks on edge devices. This paper proposes a novel tensor-based training framework, which offers orders-of-magnitude memory reduction in the training process. We propose a novel rank-adaptive tensorized neural network model, and design a hardware-friendly low-precision algorithm to train this model. We present an FPGA accelerator to demonstrate the benefits of this training method on edge devices. Our preliminary FPGA implementation achieves $59\times$ speedup and $123\times$ energy reduction compared to embedded CPU, and $292\times$ memory reduction over a standard full-size training.


翻译:开发了各种硬件加速器,用于对边缘装置的神经网络进行节能实时推断,但是,大多数培训都是在高性能GPU或服务器上进行的,而巨大的记忆和计算成本阻碍了对边缘装置的神经网络的培训。本文件提出了一个新型的以高压为基础的培训框架,在培训过程中减少磁性存储量。我们提出了一个新的等级适应性强神经网络模型,并设计了一个方便于硬件的低精度算法来培训这一模型。我们提出了一个FPGA加速器,以展示这种培训方法在边缘装置上的好处。我们初步的FPGA实施实现了59美元的加速和123美元的能源削减,与嵌入式CPU相比,在标准的全面培训中减少了292美元的存储量。

0
下载
关闭预览

相关内容

神经网络(Neural Networks)是世界上三个最古老的神经建模学会的档案期刊:国际神经网络学会(INNS)、欧洲神经网络学会(ENNS)和日本神经网络学会(JNNS)。神经网络提供了一个论坛,以发展和培育一个国际社会的学者和实践者感兴趣的所有方面的神经网络和相关方法的计算智能。神经网络欢迎高质量论文的提交,有助于全面的神经网络研究,从行为和大脑建模,学习算法,通过数学和计算分析,系统的工程和技术应用,大量使用神经网络的概念和技术。这一独特而广泛的范围促进了生物和技术研究之间的思想交流,并有助于促进对生物启发的计算智能感兴趣的跨学科社区的发展。因此,神经网络编委会代表的专家领域包括心理学,神经生物学,计算机科学,工程,数学,物理。该杂志发表文章、信件和评论以及给编辑的信件、社论、时事、软件调查和专利信息。文章发表在五个部分之一:认知科学,神经科学,学习系统,数学和计算分析、工程和应用。 官网地址:http://dblp.uni-trier.de/db/journals/nn/
专知会员服务
48+阅读 · 2021年2月2日
专知会员服务
24+阅读 · 2020年9月11日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年5月30日
Arxiv
3+阅读 · 2018年8月17日
VIP会员
相关VIP内容
专知会员服务
48+阅读 · 2021年2月2日
专知会员服务
24+阅读 · 2020年9月11日
FPGA加速系统开发工具设计:综述与实践
专知会员服务
65+阅读 · 2020年6月24日
【硬核书】可扩展机器学习:并行分布式方法
专知会员服务
85+阅读 · 2020年5月23日
Python分布式计算,171页pdf,Distributed Computing with Python
专知会员服务
107+阅读 · 2020年5月3日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
移动端机器学习资源合集
专知
8+阅读 · 2019年4月21日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
9+阅读 · 2018年12月28日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员