We introduce latency-aware network acceleration (LANA) - an approach that builds on neural architecture search techniques and teacher-student distillation to accelerate neural networks. LANA consists of two phases: in the first phase, it trains many alternative operations for every layer of the teacher network using layer-wise feature map distillation. In the second phase, it solves the combinatorial selection of efficient operations using a novel constrained integer linear optimization (ILP) approach. ILP brings unique properties as it (i) performs NAS within a few seconds to minutes, (ii) easily satisfies budget constraints, (iii) works on the layer-granularity, (iv) supports a huge search space $O(10^{100})$, surpassing prior search approaches in efficacy and efficiency. In extensive experiments, we show that LANA yields efficient and accurate models constrained by a target latency budget, while being significantly faster than other techniques. We analyze three popular network architectures: EfficientNetV1, EfficientNetV2 and ResNeST, and achieve accuracy improvement for all models (up to $3.0\%$) when compressing larger models to the latency level of smaller models. LANA achieves significant speed-ups (up to $5\times$) with minor to no accuracy drop on GPU and CPU. The code will be shared soon.


翻译:我们引入了长期认知网络加速(LANA),这种方法以神经结构搜索技术和师生蒸馏技术为基础,以加速神经网络。LANA由两个阶段组成:第一阶段,它利用分层特征图蒸馏法,对教师网络的每一层进行多种备选操作培训;第二阶段,它使用一种新颖的限制性整数线性优化(ILP)方法,解决高效操作的组合选择。ILP带来独特的特性,因为ILP(一)在几秒钟到几分钟内完成NAS,(二)容易满足预算限制,(三)层结构工程,(四)支持一个巨大的搜索空间(10.100美元),在效率和效益方面超过先前的搜索方法。在广泛的实验中,我们显示LANA产生高效和准确的模式受到目标液压预算的限制,但比其他技术要快得多。我们分析了三种流行的网络结构:高效的NetV1、高效率的NetV2和ResNESST,以及所有模型的精确性改进(最高达3.0美元),当压缩模型的精度将很快达到G-PO级的精度。

0
下载
关闭预览

相关内容

归纳逻辑程序设计(ILP)是机器学习的一个分支,它依赖于逻辑程序作为一种统一的表示语言来表达例子、背景知识和假设。基于一阶逻辑的ILP具有很强的表示形式,为多关系学习和数据挖掘提供了一种很好的方法。International Conference on Inductive Logic Programming系列始于1991年,是学习结构化或半结构化关系数据的首要国际论坛。最初专注于逻辑程序的归纳,多年来,它大大扩展了研究范围,并欢迎在逻辑学习、多关系数据挖掘、统计关系学习、图形和树挖掘等各个方面作出贡献,学习其他(非命题)基于逻辑的知识表示框架,探索统计学习和其他概率方法的交叉点。官网链接:https://ilp2019.org/
专知会员服务
28+阅读 · 2021年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
专知会员服务
60+阅读 · 2020年3月19日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
38+阅读 · 2020年2月21日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
已删除
雪球
6+阅读 · 2018年8月19日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Deep Compression/Acceleration:模型压缩加速论文汇总
极市平台
14+阅读 · 2019年5月15日
AutoML与轻量模型大列表
专知
8+阅读 · 2019年4月29日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
AI/ML/DNN硬件加速设计怎么入门?
StarryHeavensAbove
10+阅读 · 2018年12月4日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
已删除
雪球
6+阅读 · 2018年8月19日
(TensorFlow)实时语义分割比较研究
机器学习研究会
9+阅读 · 2018年3月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Top
微信扫码咨询专知VIP会员