Tiny deep learning on microcontroller units (MCUs) is challenging due to the limited memory size. We find that the memory bottleneck is due to the imbalanced memory distribution in convolutional neural network (CNN) designs: the first several blocks have an order of magnitude larger memory usage than the rest of the network. To alleviate this issue, we propose a generic patch-by-patch inference scheduling, which operates only on a small spatial region of the feature map and significantly cuts down the peak memory. However, naive implementation brings overlapping patches and computation overhead. We further propose network redistribution to shift the receptive field and FLOPs to the later stage and reduce the computation overhead. Manually redistributing the receptive field is difficult. We automate the process with neural architecture search to jointly optimize the neural architecture and inference scheduling, leading to MCUNetV2. Patch-based inference effectively reduces the peak memory usage of existing networks by 4-8x. Co-designed with neural networks, MCUNetV2 sets a record ImageNet accuracy on MCU (71.8%), and achieves >90% accuracy on the visual wake words dataset under only 32kB SRAM. MCUNetV2 also unblocks object detection on tiny devices, achieving 16.9% higher mAP on Pascal VOC compared to the state-of-the-art result. Our study largely addressed the memory bottleneck in tinyML and paved the way for various vision applications beyond image classification.


翻译:微控制器(MCUs)的微控制器(MCTUs)的微小深度学习由于记忆体积有限而具有挑战性。我们发现,记忆瓶颈是由于进化神经网络(CNN)设计中的内存分布不平衡造成的:前几个区比网络其他部分的内存使用量要大得多。为了缓解这一问题,我们建议采用通用的逐条补丁推价表,该表只能在地貌地图的一个小空间区域运行,并大大缩短顶峰记忆。然而,天真的执行带来了重叠的补丁和计算间接费用。我们进一步建议网络再分配,将接收字段和FLOP转换到后一阶段,并减少计算间接费用。手再分配接收字段是困难的。我们用神经结构来自动调整过程,以共同优化神经架构和感知力表的进度。基于补数的推力将现有网络的最高峰记忆使用量减少4-8x。与神经网络共同设计,MCUV2设置了MCU(71.8 %)的图像网络精确度,并在SMA-MLM(M) 16) 目标的直径CM(S-CR-CL) 的直径CL) 上,在S-CR-CLisal-Cal-CS-CS-CS-CS-CS-Cal) 目标上实现S-hal-hmal-hal-hal-hal) laveal 的正确数据上,在S-hmaltal-hmal-dal-dal-hmaldaldaldaldaldalddddaldaldddal 上,在Smaldddddaldaldaldaldddddaldaldal 上,在S.dddddddddddddddddddddddal上,在Smaldaldaldal上进行了上进行了上进行了上进行了上进行了上进行了上进行了上进行。

4
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
53+阅读 · 2018年12月11日
Arxiv
15+阅读 · 2018年2月4日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
56+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
Federated Learning: 架构
AINLP
4+阅读 · 2020年9月20日
深度卷积神经网络中的降采样
极市平台
12+阅读 · 2019年5月24日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
随波逐流:Similarity-Adaptive and Discrete Optimization
我爱读PAMI
5+阅读 · 2018年2月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员