Neural language models typically tokenise input text into sub-word units to achieve an open vocabulary. The standard approach is to use a single canonical tokenisation at both train and test time. We suggest that this approach is unsatisfactory and may bottleneck our evaluation of language model performance. Using only the one-best tokenisation ignores tokeniser uncertainty over alternative tokenisations, which may hurt model out-of-domain performance. In this paper, we argue that instead, language models should be evaluated on their marginal likelihood over tokenisations. We compare different estimators for the marginal likelihood based on sampling, and show that it is feasible to estimate the marginal likelihood with a manageable number of samples. We then evaluate pretrained English and German language models on both the one-best-tokenisation and marginal perplexities, and show that the marginal perplexity can be significantly better than the one best, especially on out-of-domain data. We link this difference in perplexity to the tokeniser uncertainty as measured by tokeniser entropy. We discuss some implications of our results for language model training and evaluation, particularly with regard to tokenisation robustness.


翻译:神经语言模型通常将输入文本象征性化到子词组中, 以获得开放词汇。 标准方法是在火车和测试时间使用单一的卡通符号化。 我们建议, 这种方法不令人满意, 可能会阻碍我们对语言模型性能的评估。 仅使用一个最佳象征性化就忽略了代用符号的象征化不确定性, 这可能会伤害模型外外外的性能。 在本文中, 我们争论说, 语言模型应该评估其相对于代用符号的边际可能性。 我们比较了基于取样的不同估计者, 并表明以可控制数量的样本来估计边际可能性是可行的。 我们然后对英语和德语的单一最佳化和边际曲解模式进行评估, 并表明边际的曲解可能比最佳的要好得多, 特别是外边际数据。 我们把这一差异与代用代用符号英特罗普测量的象征性不确定性联系起来。 我们讨论我们的结果对语言模型培训和评价的一些影响, 特别是象征性坚固度。

0
下载
关闭预览

相关内容

专知会员服务
92+阅读 · 2021年6月3日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
AAAI2020接受论文列表,1591篇论文目录全集
专知会员服务
99+阅读 · 2020年1月12日
强化学习最新教程,17页pdf
专知会员服务
180+阅读 · 2019年10月11日
2019年机器学习框架回顾
专知会员服务
36+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Competing Models
Arxiv
0+阅读 · 2021年11月11日
Arxiv
4+阅读 · 2018年10月31日
Arxiv
5+阅读 · 2018年5月28日
Arxiv
4+阅读 · 2018年5月14日
Arxiv
5+阅读 · 2017年11月30日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
推荐|Andrew Ng计算机视觉教程总结
全球人工智能
3+阅读 · 2017年11月23日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员