Various recent experimental results show that large language models (LLM) exhibit emergent abilities that are not present in small models. System performance is greatly improved after passing a certain critical threshold of scale. In this letter, we provide a simple explanation for such a phase transition phenomenon. For this, we model an LLM as a sequence-to-sequence random function. Instead of using instant generation at each step, we use a list decoder that keeps a list of candidate sequences at each step and defers the generation of the output sequence at the end. We show that there is a critical threshold such that the expected number of erroneous candidate sequences remains bounded when an LLM is below the threshold, and it grows exponentially when an LLM is above the threshold. Such a threshold is related to the basic reproduction number in a contagious disease.


翻译:近期的各种实验结果显示,大语言模型 (LLM) 出现了一些不在小模型中存在的新型特征。当模型达到一定的规模阈值后,其性能大幅提高。本文提供了这种相变现象的简单解释。为此,我们将 LLM 建模为一个序列到序列的随机函数。我们不使用即时生成方式,而是使用一个列表解码器,在每个步骤中保留候选序列列表,在结束时延迟生成输出序列。我们证明了存在一种临界阈值,当 LLM 在该阈值以下时,期望的候选序列数量保持有限,而当 LLM 在该阈值以上时,则呈指数增长。此阈值类似于传染病的基本繁殖数。

0
下载
关闭预览

相关内容

大模型的涌现能力介绍
专知会员服务
170+阅读 · 2023年5月16日
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
论文浅尝 | Language Models (Mostly) Know What They Know
开放知识图谱
0+阅读 · 2022年11月18日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月15日
Arxiv
1+阅读 · 2023年5月15日
Arxiv
1+阅读 · 2023年5月15日
Arxiv
0+阅读 · 2023年5月9日
VIP会员
相关VIP内容
大模型的涌现能力介绍
专知会员服务
170+阅读 · 2023年5月16日
百篇论文纵览大型语言模型最新研究进展
专知会员服务
69+阅读 · 2023年3月31日
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
【ICML2020】统一预训练伪掩码语言模型
专知会员服务
25+阅读 · 2020年7月23日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员