Knowledge distillation (KD) is commonly used to construct synthetic data for training non-autoregressive translation (NAT) models. However, there exists a discrepancy on low-frequency words between the distilled and the original data, leading to more errors on predicting low-frequency words. To alleviate the problem, we directly expose the raw data into NAT by leveraging pretraining. By analyzing directed alignments, we found that KD makes low-frequency source words aligned with targets more deterministically but fails to align sufficient low-frequency words from target to source. Accordingly, we propose reverse KD to rejuvenate more alignments for low-frequency target words. To make the most of authentic and synthetic data, we combine these complementary approaches as a new training strategy for further boosting NAT performance. We conduct experiments on five translation benchmarks over two advanced architectures. Results demonstrate that the proposed approach can significantly and universally improve translation quality by reducing translation errors on low-frequency words. Encouragingly, our approach achieves 28.2 and 33.9 BLEU points on the WMT14 English-German and WMT16 Romanian-English datasets, respectively. Our code, data, and trained models are available at \url{https://github.com/longyuewangdcu/RLFW-NAT}.


翻译:知识蒸馏(KD)通常用于为培训非反向翻译(NAT)模型而构建合成数据。然而,蒸馏和原始数据之间在低频单词上存在差异,导致低频单词预测低频单词出现更多错误。为了缓解问题,我们利用培训前的杠杆手段,直接将原始数据暴露在NAT中。通过分析定向校正,我们发现KD将低频源词与目标更加确定一致,但未能将目标中足够低频单词与源词相匹配。因此,我们提议反向KD为低频目标单词更新更多的匹配。为了充分利用真实和合成数据,我们将这些互补方法结合起来,作为进一步提高NAT绩效的新培训战略。我们在两个先进的结构上对5个翻译基准进行实验。结果显示,通过减少低频单词翻译错误,拟议的方法可以显著和普遍提高翻译质量。令人鼓舞的是,我们的方法在WMT14、德国和WMT16罗马尼亚-RQUB/RGB}分别在我们的代码、数据和经过培训的模型、数据和LFRF{/RV}。

0
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Logistic回归第二弹——Softmax Regression
机器学习深度学习实战原创交流
9+阅读 · 2015年10月29日
Arxiv
0+阅读 · 2021年7月24日
Phrase-Based & Neural Unsupervised Machine Translation
Arxiv
3+阅读 · 2018年3月28日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Logistic回归第二弹——Softmax Regression
机器学习深度学习实战原创交流
9+阅读 · 2015年10月29日
Top
微信扫码咨询专知VIP会员