题目: Understanding Knowledge Distillation in Non-autoregressive Machine Translation

摘要: 非自回归机器翻译(NAT)系统并行地预测输出标记序列,与自回归模型相比,在生成速度上获得了实质性的改进。现有的NAT模型通常依赖于知识蒸馏技术,该技术从一个预先训练好的自回归模型中创建训练数据,以获得更好的性能。知识蒸馏在经验上是有用的,它使NAT模型的准确性得到了很大的提高,但是这种成功的原因到目前为止还不清楚。在这篇论文中,我们首先设计了系统的实验来研究为什么知识蒸馏对于NAT训练是至关重要的。我们发现,知识蒸馏可以降低数据集的复杂性,并帮助NAT对输出数据的变化进行建模。此外,在NAT模型的容量和为获得最佳翻译质量而提取的数据的最优复杂度之间存在很强的相关性。基于这些发现,我们进一步提出了几种可以改变数据集复杂性的方法,以提高NAT模型的性能。我们为基于nat的模型实现了最先进的性能,并缩小了与WMT14 En-De基准上的自回归基线的差距。

成为VIP会员查看完整内容
10

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
BERT 瘦身之路:Distillation,Quantization,Pruning
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
2018年自然语言处理值得关注的研究、论文和代码
从想法到实干,2018年13项NLP绝美新研究
专知
75+阅读 · 2018年12月26日
Arxiv
6+阅读 · 2019年9月4日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
相关VIP内容
图卷积神经网络蒸馏知识,Distillating Knowledge from GCN
专知会员服务
94+阅读 · 2020年3月25日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
微信扫码咨询专知VIP会员