Large pretrained language models such as GPT-3 have the surprising ability to do in-context learning, where the model learns to do a downstream task simply by conditioning on a prompt consisting of input-output examples. Without being explicitly pretrained to do so, the language model learns from these examples during its forward pass without parameter updates on "out-of-distribution" prompts. Thus, it is unclear what mechanism enables in-context learning. In this paper, we study the role of the pretraining distribution on the emergence of in-context learning under a mathematical setting where the pretraining texts have long-range coherence. Here, language model pretraining requires inferring a latent document-level concept from the conditioning text to generate coherent next tokens. At test time, this mechanism enables in-context learning by inferring the shared latent concept between prompt examples and applying it to make a prediction on the test example. Concretely, we prove that in-context learning occurs implicitly via Bayesian inference of the latent concept when the pretraining distribution is a mixture of HMMs. This can occur despite the distribution mismatch between prompts and pretraining data. In contrast to messy large-scale pretraining datasets for in-context learning in natural language, we generate a family of small-scale synthetic datasets (GINC) where Transformer and LSTM language models both exhibit in-context learning. Beyond the theory which focuses on the effect of the pretraining distribution, we empirically find that scaling model size improves in-context accuracy even when the pretraining loss is the same.


翻译:GPT-3等大型预先培训语言模型具有惊人的能力来进行文文本学习,而该模型仅以输入输出实例的迅速性为条件,就学会了下游任务。语言模型在未经明确事先培训的情况下,在其前传过程中从这些实例中学习,而没有在“分配外”提示上更新参数。因此,不清楚什么机制能够进行文文本学习。在本文件中,我们研究了在数学环境下,在培训前文本具有长期一致性的情况下,在出现文文本学习的数学环境中,预培训前分发的作用。在这里,语言模型前训练需要从调试文本中推断出潜在的文件级别概念,以便产生一致的下一个符号。在测试时,这一机制通过推导出在“分配外分配外分配”前的参数更新而没有在“分配外派”提示上学习这些实例。具体地说,当培训前分发之前的文文本是HMMS的混合物时,我们通过Bayesian Exerview 概念的隐含性地进行文文本学习。这可以发生这种情况,尽管在逻辑上分配的理论性变校程中,在模拟分析中,在模拟前的缩缩缩数据演示中,在进行数据分析中,在进行数据分析前的缩略取数据分析中进行中,因此,在进行数据缩缩略取数据分析时,在数据演示中,在数据演示前的缩略取。

0
下载
关闭预览

相关内容

【google】监督对比学习,Supervised Contrastive Learning
专知会员服务
31+阅读 · 2020年4月23日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
已删除
将门创投
5+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
10+阅读 · 2021年2月18日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
Arxiv
4+阅读 · 2020年3月19日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
A Probe into Understanding GAN and VAE models
Arxiv
9+阅读 · 2018年12月13日
Interpretable Active Learning
Arxiv
3+阅读 · 2018年6月24日
VIP会员
相关资讯
已删除
将门创投
5+阅读 · 2019年6月28日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员