Sequence generation models trained with teacher-forcing suffer from issues related to exposure bias and lack of differentiability across timesteps. Our proposed method, Teacher-Forcing with N-grams (TeaForN), addresses both these problems directly, through the use of a stack of N decoders trained to decode along a secondary time axis that allows model parameter updates based on N prediction steps. TeaForN can be used with a wide class of decoder architectures and requires minimal modifications from a standard teacher-forcing setup. Empirically, we show that TeaForN boosts generation quality on one Machine Translation benchmark, WMT 2014 English-French, and two News Summarization benchmarks, CNN/Dailymail and Gigaword.


翻译:接受过教师强制培训的序列生成模型存在与暴露偏向和不同时间步之间缺乏差异有关的问题。我们提出的方法,即教师用Ngram(TeaFORN),直接解决了这两个问题,方法是使用一批经过训练的N解码器,按照二级时间轴进行解码,允许根据N预测步骤进行模型参数更新。TeaForN可以使用大量的解码器结构,并需要从标准的教师强制设置中进行最低限度的修改。我们经常显示,TeaForN在一个机器翻译基准(WMT 2014 英文-法文)和两个新闻总结基准(CNN/Dailymail和Gigaword)上提升了生产质量。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
318+阅读 · 2020年11月26日
【EMNLP2020】序列知识蒸馏进展,44页ppt
专知会员服务
39+阅读 · 2020年11月21日
最新《时序分类:深度序列模型》教程,172页ppt
专知会员服务
43+阅读 · 2020年11月11日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
80+阅读 · 2020年7月26日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
NLP预训练模型大集合!
黑龙江大学自然语言处理实验室
6+阅读 · 2018年12月31日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
27+阅读 · 2017年12月6日
VIP会员
相关资讯
word2Vec总结
AINLP
3+阅读 · 2019年11月2日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
NLP预训练模型大集合!
黑龙江大学自然语言处理实验室
6+阅读 · 2018年12月31日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员