知识蒸馏作为一种有效的模型加速和模型压缩方法,近年来得到了广泛的使用。它通过使用大型神经网络的预测作为小型神经网络的学习目标,将知识从大型神经网络转移到小型神经网络。但是,这种方式忽略了大型神经网络内部的知识,例如权重。在本文中我们提出权重蒸馏,通过参数生成器将大型神经网络的权重知识转移到小型神经网络。在WMT16 En-Ro,NIST12 Zh-En和WMT14 En-De机器翻译任务上,小牛翻译团队的实验表明,权重蒸馏学习的小型网络比大型网络快1.88~2.94倍,而且具有很好的翻译性能。