知识蒸馏作为一种有效的模型加速和模型压缩方法,近年来得到了广泛的使用。它通过使用大型神经网络的预测作为小型神经网络的学习目标,将知识从大型神经网络转移到小型神经网络。但是,这种方式忽略了大型神经网络内部的知识,例如权重。在本文中我们提出权重蒸馏,通过参数生成器将大型神经网络的权重知识转移到小型神经网络。在WMT16 En-Ro,NIST12 Zh-En和WMT14 En-De机器翻译任务上,小牛翻译团队的实验表明,权重蒸馏学习的小型网络比大型网络快1.88~2.94倍,而且具有很好的翻译性能。

成为VIP会员查看完整内容
20

相关内容

专知会员服务
50+阅读 · 2021年8月13日
【CVPR2021】神经网络中的知识演化
专知会员服务
24+阅读 · 2021年3月11日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
26+阅读 · 2020年12月2日
专知会员服务
28+阅读 · 2020年10月24日
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
专知会员服务
44+阅读 · 2020年3月6日
稀缺资源语言神经网络机器翻译研究综述
专知
5+阅读 · 2020年12月3日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
BERT 瘦身之路:Distillation,Quantization,Pruning
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
已删除
将门创投
5+阅读 · 2019年4月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
Arxiv
7+阅读 · 2021年5月13日
Arxiv
9+阅读 · 2021年3月3日
Arxiv
3+阅读 · 2019年11月28日
A General and Adaptive Robust Loss Function
Arxiv
8+阅读 · 2018年11月5日
VIP会员
相关VIP内容
相关资讯
稀缺资源语言神经网络机器翻译研究综述
专知
5+阅读 · 2020年12月3日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
BERT 瘦身之路:Distillation,Quantization,Pruning
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
已删除
将门创投
5+阅读 · 2019年4月4日
最新论文解读 | 基于预训练自然语言生成的文本摘要方法
微软研究院AI头条
57+阅读 · 2019年3月19日
FAIR&MIT提出知识蒸馏新方法:数据集蒸馏
机器之心
7+阅读 · 2019年2月7日
微信扫码咨询专知VIP会员