The deployment of Deep Neural Networks (DNNs) on end-nodes at the extreme edge of the Internet-of-Things is a critical enabler to support pervasive Deep Learning-enhanced applications. Low-Cost MCU-based end-nodes have limited on-chip memory and often replace caches with scratchpads, to reduce area overheads and increase energy efficiency -- requiring explicit DMA-based memory transfers between different levels of the memory hierarchy. Mapping modern DNNs on these systems requires aggressive topology-dependent tiling and double-buffering. In this work, we propose DORY (Deployment Oriented to memoRY) - an automatic tool to deploy DNNs on low cost MCUs with typically less than 1MB of on-chip SRAM memory. DORY abstracts tiling as a Constraint Programming (CP) problem: it maximizes L1 memory utilization under the topological constraints imposed by each DNN layer. Then, it generates ANSI C code to orchestrate off- and on-chip transfers and computation phases. Furthermore, to maximize speed, DORY augments the CP formulation with heuristics promoting performance-effective tile sizes. As a case study for DORY, we target GreenWaves Technologies GAP8, one of the most advanced parallel ultra-low power MCU-class devices on the market. On this device, DORY achieves up to 2.5x better MAC/cycle than the GreenWaves proprietary software solution and 18.1x better than the state-of-the-art result on an STM32-F746 MCU on single layers. Using our tool, GAP-8 can perform end-to-end inference of a 1.0-MobileNet-128 network consuming just 63 pJ/MAC on average @ 4.3 fps - 15.4x better than an STM32-F746. We release all our developments - the DORY framework, the optimized backend kernels, and the related heuristics - as open-source software.


翻译:在互联网极端端端端端端端端点部署深神经网络(DNNS) (DNN) (DNN) (DNN) (DNN) (DMM) (DNN) (DNNN) (DNN) (DNN) (DDMA) (DNM) (DNM) (DNM) (DNM) (DNM) (DNM) (DNM) (DNM) (DNM) (DNM) (DNM) (DN) (DN) (DNMN) (TN) (DN) (DNM) (DN) (DN) (TN) (DMN) (DMN) (DM) (DN) (DMN(DN) (DNMND(D) (DN) (DN) (DMND(D) (T) (DMN) (DM) (DMN(DM) (DMN(DMN(DM) (DM) (DN) (D) (DN(D) (DMDN) (D) (D) (DN) (D) (DN) (D) (DN) (DN) (DMDNDM) (D) (D) (D) (DNDM(D) (D) (D) (D) (D) (D) (DM(D) (D) () () () (D) (D) (D) (D(D) (D) (D) (DN) (D) (D) (D) (D) (D) (D) (D) (D) (D) (D) (D) (D) (D) (D) (D) (DN) (DN) (DN) (DN) (D) (DN) (DN) (DN))) () () () () () () () () () () (D) (DN) (D) (D) (D) (D) (D) (D) (D) (D) (

0
下载
关闭预览

相关内容

神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
74+阅读 · 2020年8月2日
【普林斯顿大学-微软】加权元学习,Weighted Meta-Learning
专知会员服务
40+阅读 · 2020年3月25日
MIT新书《强化学习与最优控制》
专知会员服务
279+阅读 · 2019年10月9日
复旦大学邱锡鹏老师《神经网络与深度学习》书册最新版
【智能供应链】AI和IoT驱动的智能供应链
产业智能官
9+阅读 · 2020年7月9日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Windows 提权-快速查找 Exp
黑白之道
3+阅读 · 2019年1月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
时延神经网络(TDNN)原理及其TensorFlow实现
深度学习每日摘要
56+阅读 · 2017年5月19日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Arxiv
0+阅读 · 2021年5月4日
VIP会员
相关资讯
【智能供应链】AI和IoT驱动的智能供应链
产业智能官
9+阅读 · 2020年7月9日
计算机 | ISMAR 2019等国际会议信息8条
Call4Papers
3+阅读 · 2019年3月5日
Windows 提权-快速查找 Exp
黑白之道
3+阅读 · 2019年1月23日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机类 | 11月截稿会议信息9条
Call4Papers
6+阅读 · 2018年10月14日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
时延神经网络(TDNN)原理及其TensorFlow实现
深度学习每日摘要
56+阅读 · 2017年5月19日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
Top
微信扫码咨询专知VIP会员