Despite the effectiveness of recurrent neural network language models, their maximum likelihood estimation suffers from two limitations. It treats all sentences that do not match the ground truth as equally poor, ignoring the structure of the output space. Second, it suffers from "exposure bias": during training tokens are predicted given ground-truth sequences, while at test time prediction is conditioned on generated output sequences. To overcome these limitations we build upon the recent reward augmented maximum likelihood approach \ie sequence-level smoothing that encourages the model to predict sentences close to the ground truth according to a given performance metric. We extend this approach to token-level loss smoothing, and propose improvements to the sequence-level smoothing approach. Our experiments on two different tasks, image captioning and machine translation, show that token-level and sequence-level loss smoothing are complementary, and significantly improve results.


翻译:尽管经常出现神经网络语言模型的有效性,但其最大可能性估计存在两个限制。 它把不符合地面事实的所有句子都视为同样差,忽略了输出空间的结构。 其次, 它存在“接触偏差 ” : 在培训期间, 符号被预测为地面真实序列, 而测试时的预测则以生成输出序列为条件。 为了克服这些限制, 我们以最近的奖励为基础, 增加了最大可能性 \ 序列级平滑方法, 从而鼓励模型根据特定的性能衡量标准预测接近地面真相的句子。 我们将这一方法推广到象征性水平损失平滑, 并提议改进顺序平滑方法。 我们在两个不同任务上进行的实验, 图像说明和机器翻译, 显示代数和序列级损失平滑是互补的, 并显著改善结果 。

7
下载
关闭预览

相关内容

【ICML2020-华为港科大】RNN和LSTM有长期记忆吗?
专知会员服务
74+阅读 · 2020年6月25日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【MIT深度学习课程】深度序列建模,Deep Sequence Modeling
专知会员服务
77+阅读 · 2020年2月3日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
5+阅读 · 2017年12月29日
VIP会员
Top
微信扫码咨询专知VIP会员