今天的神经语言模型似乎很好地模拟了句子的分布情况,也就是说,它们能够给递出的文本分配高概率。然而,在用于生成文本时,这些相同的模型经常表现不佳——实际上,文本神经语言模型放置的高概率通常是枯燥和重复的。所以,一个好奇的人可能会问:这是怎么回事?在这次演讲中,我将通过信息理论的视角来探讨这一明显的矛盾。具体来说,我认为人类使用语言作为一种沟通渠道。在这种情况下,人们往往会说出既简洁高效,又容易理解的句子。因此,我断言,当我们使用语言模型来生成文本时,我们应该采用类似的原则。这一原则导致了一个简单的抽样策略,我称之为典型抽样。典型的抽样不是每次迭代都从分布的高概率区域中选择单词,而是选择信息量(负对数概率)接近条件分布p(y | y1,…,yk)熵的单词,即分布的平均信息量。我们发现,典型抽样在质量方面优于最近提出的几种抽样算法,同时持续减少退化重复的数量。

成为VIP会员查看完整内容
19

相关内容

【CVPR2022】跨模态检索的协同双流视觉语言预训练模型
专知会员服务
20+阅读 · 2022年4月21日
【CVPR2022】三元组对比学习的视觉-语言预训练
专知会员服务
31+阅读 · 2022年3月3日
AAAI 2022 | 基于预训练-微调框架的图像差异描述任务
专知会员服务
17+阅读 · 2022年2月26日
EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果
专知会员服务
14+阅读 · 2021年12月25日
专知会员服务
24+阅读 · 2021年6月17日
多任务学习漫谈:分主次之序
PaperWeekly
0+阅读 · 2022年3月7日
基于编辑方法的文本生成(上)
哈工大SCIR
0+阅读 · 2021年6月30日
微软亚洲研究院提出多语言通用文档理解预训练模型LayoutXLM
微软研究院AI头条
2+阅读 · 2021年6月1日
论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示
开放知识图谱
25+阅读 · 2019年10月31日
【干货】强化学习在生成对抗网络文本生成中扮演的角色(下)
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2022年7月15日
Arxiv
0+阅读 · 2022年7月14日
Arxiv
11+阅读 · 2018年9月28日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员