主题: Residual Energy-Based Models for Text Generation

摘要: 从摘要到对话机器翻译,文本生成在许多NLP任务中无处不在。主导参数方法基于局部标准化模型,该模型一次预测一个单词。尽管这些工作非常出色,但由于发电过程的贪婪性,它们受到暴露偏差的困扰。在这项工作中,我们研究了基于非标准化能量的模型(EBM),该模型不是在令牌上运行,而是在序列级别上运行。为了使训练易于处理,我们首先在预训练的局部归一化语言模型的残差中进行工作,其次我们使用噪声对比估计进行训练。此外,由于EBM在序列级别起作用,因此我们可以利用预训练的双向上下文表示,例如BERT和RoBERTa。我们在两个大型语言建模数据集上的实验表明,与本地标准化基准相比,残留EBM的困惑度更低。此外,根据人类评估,通过重要性抽样进行的生成比基线模型非常有效且质量更高。

成为VIP会员查看完整内容
10

相关内容

【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
注意力能提高模型可解释性?实验表明:并没有
黑龙江大学自然语言处理实验室
11+阅读 · 2019年4月16日
各种NLP操作难实现?谷歌开源序列建模框架Lingvo
机器之心
4+阅读 · 2019年2月26日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
用于神经网络机器翻译的全并行文本生成
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
GAN猫的脸
机械鸡
11+阅读 · 2017年7月8日
Arxiv
6+阅读 · 2019年9月4日
Arxiv
21+阅读 · 2019年8月21日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
4+阅读 · 2018年5月10日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
相关VIP内容
【ICML2020-哈佛】深度语言表示中可分流形
专知会员服务
12+阅读 · 2020年6月2日
相关资讯
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
注意力能提高模型可解释性?实验表明:并没有
黑龙江大学自然语言处理实验室
11+阅读 · 2019年4月16日
各种NLP操作难实现?谷歌开源序列建模框架Lingvo
机器之心
4+阅读 · 2019年2月26日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
用于神经网络机器翻译的全并行文本生成
用于神经机器翻译的全并行文本生成
全球人工智能
7+阅读 · 2017年11月13日
GAN猫的脸
机械鸡
11+阅读 · 2017年7月8日
相关论文
微信扫码咨询专知VIP会员