Knowledge distillation has been proven to be effective in model acceleration and compression. It allows a small network to learn to generalize in the same way as a large network. Recent successes in pre-training suggest the effectiveness of transferring model parameters. Inspired by this, we investigate methods of model acceleration and compression in another line of research. We propose Weight Distillation to transfer the knowledge in the large network parameters through a parameter generator. Our experiments on WMT16 En-Ro, NIST12 Zh-En, and WMT14 En-De machine translation tasks show that weight distillation can train a small network that is 1.88~2.94x faster than the large network but with competitive performance. With the same sized small network, weight distillation can outperform knowledge distillation by 0.51~1.82 BLEU points.


翻译:事实证明, 知识蒸馏在模型加速和压缩方面是有效的。 它使小型网络能够学习与大型网络一样的概括化。 培训前最近的成功表明, 传输模型参数的有效性。 受此启发, 我们研究另一个研究线的模型加速和压缩方法。 我们建议通过参数生成器在大型网络参数中传输知识。 我们在 WMT16 En- Ro、 NIST12 Zh- En 和 WMT14 En- De 机器翻译任务方面的实验显示, 重量蒸馏可以培训比大型网络快1.88~ 2.94x 的小型网络, 并且具有竞争性性能。 在同一个规模的小网络中, 重量蒸馏可以超过0. 51~ 1.82 BLEU 点的知识蒸馏。

0
下载
关闭预览

相关内容

商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
BERT 瘦身之路:Distillation,Quantization,Pruning
Graph Neural Networks 综述
计算机视觉life
29+阅读 · 2019年8月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2019年2月8日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
4+阅读 · 2018年7月4日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
159+阅读 · 2020年6月2日
【芝加哥大学】可变形的风格转移,Deformable Style Transfer
专知会员服务
30+阅读 · 2020年3月26日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
相关资讯
内涵网络嵌入:Content-rich Network Embedding
我爱读PAMI
4+阅读 · 2019年11月5日
BERT 瘦身之路:Distillation,Quantization,Pruning
Graph Neural Networks 综述
计算机视觉life
29+阅读 · 2019年8月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
已删除
Arxiv
32+阅读 · 2020年3月23日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
4+阅读 · 2019年2月8日
Arxiv
7+阅读 · 2018年8月28日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
4+阅读 · 2018年7月4日
Top
微信扫码咨询专知VIP会员