This work studies the widely adopted ancestral sampling algorithms for auto-regressive language models, which is not widely studied in the literature. We use the quality-diversity (Q-D) trade-off to investigate three popular sampling algorithms (top-k, nucleus and tempered sampling). We focus on the task of open-ended language generation. We first show that the existing sampling algorithms have similar performance. After carefully inspecting the transformations defined by different sampling algorithms, we identify three key properties that are shared among them: entropy reduction, order preservation, and slope preservation. To validate the importance of the identified properties, we design two sets of new sampling algorithms: one set in which each algorithm satisfies all three properties, and one set in which each algorithm violates at least one of the properties. We compare their performance with existing sampling algorithms, and find that violating the identified properties could lead to drastic performance degradation, as measured by the Q-D trade-off. On the other hand, we find that the set of sampling algorithms that satisfies these properties performs on par with the existing sampling algorithms. Our data and code are available at https://github.com/moinnadeem/characterizing-sampling-algorithms


翻译:这项工作研究广泛采用的自递递减语言模型的祖传抽样算法,文献对此没有进行广泛研究。我们使用质量多样性(Q-D)交换法调查三种流行的抽样算法(高空、核心和温带抽样)。我们集中研究开放语言一代的任务。我们首先显示,现有的抽样算法具有类似的性能。在仔细检查不同抽样算法界定的变换后,我们确定了它们之间共有的三种关键属性:消化变换、秩序保存和斜坡保存。为了确认所查明的特性的重要性,我们设计了两套新的抽样算法:一套是每个算法都满足所有三种特性的一套,另一套是每个算法至少侵犯其中一种特性的一套。我们将其性能与现有的抽样算法进行比较,并发现违反所查明的特性可能导致性能急剧退化,这是由Q-D交易算法所测量的。另一方面,我们发现符合这些特性的一组抽样算法与现有抽样算法相同。我们的数据和代码可以在 https://giththubal/moinactasimade.com/moactalizalmalition上查阅。我们的数据和代码。

0
下载
关闭预览

相关内容

【最受欢迎的概率书】《概率论:理论与实例》,490页pdf
专知会员服务
165+阅读 · 2020年11月13日
专知会员服务
45+阅读 · 2020年10月31日
最新【深度生成模型】Deep Generative Models,104页ppt
专知会员服务
70+阅读 · 2020年10月24日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
44+阅读 · 2020年9月11日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
《自然》(20190829出版)一周论文导读
科学网
6+阅读 · 2019年8月30日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
3+阅读 · 2018年12月18日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关资讯
《自然》(20190829出版)一周论文导读
科学网
6+阅读 · 2019年8月30日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员