由于有限的内存,MCU(MicroController Units, MCU)端的TinyDL极具挑战性。我们发现:内存瓶颈源于CNN设计导致的内存分布不平衡 ,即网络的前几个模块具有比其他模块大的多的内存占用。
为缓解该问题,我们提出一种广义的patch-by-patch 推理机制,它仅对特征图的局部区域进行处理,大幅降低了峰值内存。然而,常规的实现方式会带来重叠块与计算复杂问题。我们进一步提出了recptive field redistribution 调整感受野与FLOPs以降低整体计算负载。人工方式重分布感受野无疑非常困难!我们采用NAS对网络架构与推理机制进行联合优化得到了本文的MCUNetV2。所提推理机制能大幅降低峰值内存达4-8倍。
所推MCUNetV2取得了MCU端新的ImageNet分类记录71.8% ;更重要的是,MCUNetV2解锁了MCU端执行稠密预测任务的可能性,如目标检测取得了比已有方案高16.9%mAP@VOC的指标。本研究极大程度上解决了TinyDL的内存瓶颈问题,为图像分类之外的其他视觉应用铺平了道路 。