Scheduled sampling is widely used to mitigate the exposure bias problem for neural machine translation. Its core motivation is to simulate the inference scene during training by replacing ground-truth tokens with predicted tokens, thus bridging the gap between training and inference. However, vanilla scheduled sampling is merely based on training steps and equally treats all decoding steps. Namely, it simulates an inference scene with uniform error rates, which disobeys the real inference scene, where larger decoding steps usually have higher error rates due to error accumulations. To alleviate the above discrepancy, we propose scheduled sampling methods based on decoding steps, increasing the selection chance of predicted tokens with the growth of decoding steps. Consequently, we can more realistically simulate the inference scene during training, thus better bridging the gap between training and inference. Moreover, we investigate scheduled sampling based on both training steps and decoding steps for further improvements. Experimentally, our approaches significantly outperform the Transformer baseline and vanilla scheduled sampling on three large-scale WMT tasks. Additionally, our approaches also generalize well to the text summarization task on two popular benchmarks.


翻译:排程抽样广泛用于减轻神经机翻译的暴露偏差问题。其核心动机是模拟培训期间的推断场景,用预测的符号取代地面真实符号,从而缩小培训与推断之间的差距;然而,香草定序取样仅仅基于培训步骤,同等处理所有解码步骤。也就是说,它模拟了统一的误差率的推断场景,这与真实的推断场景不相符,在真实的推断场景中,较大的解码步骤通常因误差累积而导致的误差率较高。为了缩小上述差异,我们提议了基于解码步骤的定序取样方法,增加了预测符号的选择机会,并增加了解码步骤的增长。因此,我们可以更现实地模拟培训期间的推断场景,从而更好地弥合培训和推断之间的差距。此外,我们根据培训步骤和为进一步改进的解码步骤对预定的取样进行了调查。实验性地,我们的方法大大超出了三个大规模WMT任务的变换基线和香草定序定序抽样。此外,我们的方法还全面概括了两个大众基准的文本总和任务。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2020年9月13日
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
155+阅读 · 2020年5月26日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
Jointly Improving Summarization and Sentiment Classification
黑龙江大学自然语言处理实验室
3+阅读 · 2018年6月12日
论文浅尝 | Hike: A Hybrid Human-Machine Method for Entity Alignment
开放知识图谱
4+阅读 · 2017年12月30日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
3+阅读 · 2018年3月28日
Arxiv
6+阅读 · 2018年2月28日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
Top
微信扫码咨询专知VIP会员