由于有限的内存,MCU(MicroController Units, MCU)端的TinyDL极具挑战性。我们发现:内存瓶颈源于CNN设计导致的内存分布不平衡 ,即网络的前几个模块具有比其他模块大的多的内存占用。

为缓解该问题,我们提出一种广义的patch-by-patch 推理机制,它仅对特征图的局部区域进行处理,大幅降低了峰值内存。然而,常规的实现方式会带来重叠块与计算复杂问题。我们进一步提出了recptive field redistribution 调整感受野与FLOPs以降低整体计算负载。人工方式重分布感受野无疑非常困难!我们采用NAS对网络架构与推理机制进行联合优化得到了本文的MCUNetV2。所提推理机制能大幅降低峰值内存达4-8倍。

所推MCUNetV2取得了MCU端新的ImageNet分类记录71.8% ;更重要的是,MCUNetV2解锁了MCU端执行稠密预测任务的可能性,如目标检测取得了比已有方案高16.9%mAP@VOC的指标。本研究极大程度上解决了TinyDL的内存瓶颈问题,为图像分类之外的其他视觉应用铺平了道路 。

成为VIP会员查看完整内容
12

相关内容

【AAAI2022】SVT-Net的超轻量化网络
专知会员服务
19+阅读 · 2021年12月5日
专知会员服务
18+阅读 · 2021年6月29日
专知会员服务
12+阅读 · 2020年9月19日
专知会员服务
114+阅读 · 2020年8月22日
专知会员服务
44+阅读 · 2020年3月6日
GPU 显存不足怎么办?
AINLP
13+阅读 · 2019年8月16日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
Sufficient Statistic Memory AMP
Arxiv
0+阅读 · 2022年1月7日
Arxiv
20+阅读 · 2019年9月7日
VIP会员
相关VIP内容
微信扫码咨询专知VIP会员