Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

为了将深度学习模型部署到生产中,它需要准确和紧凑,以满足延迟和内存的限制。这通常会导致网络的深度(以确保性能)和瘦(以提高计算效率)。本文提出了一种在理论保证下训练深薄网络的有效方法。我们的方法是由模型压缩驱动的。它由三个阶段组成。在第一阶段,我们充分拓宽深薄网络,并训练它直到收敛。在第二阶段,我们使用这个训练良好的深宽网络来预热(或初始化)原始的深薄网络。这是通过让瘦网络从层到层模拟宽网络的直接输出来实现的。在最后一个阶段,我们进一步优化这个初始化良好的深薄网络。通过平均场分析,建立了理论保证,表明了分层模拟比传统的反向传播从头开始训练深薄网络的优越性。我们还进行了大规模的实证实验来验证我们的方法。通过使用我们的方法进行训练,ResNet50可以超过ResNet101, BERTBASE可以与BERTLARGE相媲美,后者的模型都是通过文献中的标准训练程序进行训练的。

成为VIP会员查看完整内容
34

相关内容

专知会员服务
114+阅读 · 2020年8月22日
专知会员服务
73+阅读 · 2020年5月21日
【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
22+阅读 · 2020年4月12日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
27+阅读 · 2020年1月16日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
ICCV 2019 | 精确的端到端的弱监督目标检测网络
AI科技评论
11+阅读 · 2019年12月9日
CVPR 2019 | 用异构卷积训练深度CNN:提升效率而不损准确度
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
Attentive Graph Neural Networks for Few-Shot Learning
Arxiv
40+阅读 · 2020年7月14日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
4+阅读 · 2018年4月9日
Arxiv
10+阅读 · 2018年3月23日
VIP会员
相关VIP内容
相关论文
Attentive Graph Neural Networks for Few-Shot Learning
Arxiv
40+阅读 · 2020年7月14日
Position-aware Graph Neural Networks
Arxiv
15+阅读 · 2019年6月11日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
4+阅读 · 2018年4月9日
Arxiv
10+阅读 · 2018年3月23日
微信扫码咨询专知VIP会员