Deploying deep neural networks on mobile devices is a challenging task. Current model compression methods such as matrix decomposition effectively reduce the deployed model size, but still cannot satisfy real-time processing requirement. This paper first discovers that the major obstacle is the excessive execution time of non-tensor layers such as pooling and normalization without tensor-like trainable parameters. This motivates us to design a novel acceleration framework: DeepRebirth through "slimming" existing consecutive and parallel non-tensor and tensor layers. The layer slimming is executed at different substructures: (a) streamline slimming by merging the consecutive non-tensor and tensor layer vertically; (b) branch slimming by merging non-tensor and tensor branches horizontally. The proposed optimization operations significantly accelerate the model execution and also greatly reduce the run-time memory cost since the slimmed model architecture contains less hidden layers. To maximally avoid accuracy loss, the parameters in new generated layers are learned with layer-wise fine-tuning based on both theoretical analysis and empirical verification. As observed in the experiment, DeepRebirth achieves more than 3x speed-up and 2.5x run-time memory saving on GoogLeNet with only 0.4% drop of top-5 accuracy on ImageNet. Furthermore, by combining with other model compression techniques, DeepRebirth offers an average of 65ms inference time on the CPU of Samsung Galaxy S6 with 86.5% top-5 accuracy, 14% faster than SqueezeNet which only has a top-5 accuracy of 80.5%.


翻译:在移动设备上部署深层神经网络是一项具有挑战性的任务。 当前模型压缩方法, 如矩阵分解, 有效地减少了部署的模型尺寸, 但仍然无法满足实时处理要求 。 本文首先发现主要障碍是非太层的执行时间过长, 如集成和常规化等非太层的执行时间过长, 不需要有高压式训练参数。 这促使我们设计一个新的加速框架 : 通过“ 攀升”, 通过现有连续和平行非惯性及高压层来进行深层再生。 层稀释法在不同子结构中执行:(a) 通过合并连续的非加速度和高压层来精简缩缩缩缩缩式。 (b) 通过横向合并非电流和高压分支来精简分支。 (b) 拟议的优化操作大大加快了模型执行, 并大大降低了运行时间存储成本, 因为薄度模型结构包含较少的层层。 为避免准确性损失, 新生成层的参数仅根据理论分析和实验性核查进行层学微调 。 (a) 在实验中看到, 深再生 5- 5 高级网络 将S 图像的图像的升级比 2.5 的 的 的 的升级 将S hold 的 将 的 的 的 的 25 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 将 将 的 的 的 将 的 的 的 的 的 的 的 的 和 的 的 25 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 将 将 将 将 将 将 将 将 的 将 将 将 将 将 将 将 的 的 将 将 将 的 的 的 的 将 将 将 将 将 将 将 的 的 的 的 的 的 以 的 以 将 将 的 的 将 将 将 将 将 将 将

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
专知会员服务
61+阅读 · 2020年3月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
哇~这么Deep且又轻量的Network,实时目标检测
计算机视觉战队
7+阅读 · 2018年8月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
9+阅读 · 2018年3月20日
VIP会员
相关VIP内容
因果图,Causal Graphs,52页ppt
专知会员服务
250+阅读 · 2020年4月19日
专知会员服务
61+阅读 · 2020年3月19日
深度强化学习策略梯度教程,53页ppt
专知会员服务
184+阅读 · 2020年2月1日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
31+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
11+阅读 · 2018年12月4日
哇~这么Deep且又轻量的Network,实时目标检测
计算机视觉战队
7+阅读 · 2018年8月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
19+阅读 · 2017年12月17日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
分布式TensorFlow入门指南
机器学习研究会
4+阅读 · 2017年11月28日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
Top
微信扫码咨询专知VIP会员