Non-parametric neural language models (NLMs) learn predictive distributions of text utilizing an external datastore, which allows them to learn through explicitly memorizing the training datapoints. While effective, these models often require retrieval from a large datastore at test time, significantly increasing the inference overhead and thus limiting the deployment of non-parametric NLMs in practical applications. In this paper, we take the recently proposed $k$-nearest neighbors language model (Khandelwal et al., 2019) as an example, exploring methods to improve its efficiency along various dimensions. Experiments on the standard WikiText-103 benchmark and domain-adaptation datasets show that our methods are able to achieve up to a 6x speed-up in inference speed while retaining comparable performance. The empirical analysis we present may provide guidelines for future research seeking to develop or deploy more efficient non-parametric NLMs.


翻译:非对称神经语言模型(NLMs)学习利用外部数据存储处的文字预测分布,从而通过明确记忆化培训数据点来学习,这些模型虽然有效,但往往需要从试验时的大数据储存处检索,从而大大增加了间接推断,从而限制了在实际应用中部署非对称NLM。在本文中,我们以最近提出的美元最近邻语言模型(Khandelwal等人,2019年)为例,探讨在各个方面提高效率的方法。关于标准Wikit-103基准和域适应数据集的实验表明,我们的方法能够在保持可比性能的同时达到最高6x加速的推断速度。我们介绍的经验分析可以为今后寻求开发或部署更有效非参数的NLMs的研究提供指导方针。

0
下载
关闭预览

相关内容

知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
【ICLR2021】常识人工智能,77页ppt
专知会员服务
73+阅读 · 2021年5月11日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
少即是多?非参数语言模型,68页ppt
专知会员服务
23+阅读 · 2020年11月22日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
30+阅读 · 2021年8月18日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
5+阅读 · 2017年9月8日
VIP会员
相关VIP内容
知识增强预训练语言模型:全面综述
专知会员服务
89+阅读 · 2021年10月19日
【ICLR2021】常识人工智能,77页ppt
专知会员服务
73+阅读 · 2021年5月11日
最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
少即是多?非参数语言模型,68页ppt
专知会员服务
23+阅读 · 2020年11月22日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
Python数据分析:过去、现在和未来,52页ppt
专知会员服务
99+阅读 · 2020年3月9日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
57+阅读 · 2019年11月10日
相关资讯
计算机 | 中低难度国际会议信息8条
Call4Papers
9+阅读 · 2019年6月19日
计算机 | EMNLP 2019等国际会议信息6条
Call4Papers
18+阅读 · 2019年4月26日
人工智能 | UAI 2019等国际会议信息4条
Call4Papers
6+阅读 · 2019年1月14日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关论文
Arxiv
30+阅读 · 2021年8月18日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
7+阅读 · 2018年3月21日
Arxiv
5+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员