现代语言模型能够通过上下文学习执行复杂任务——它们无需参数更新即可根据输入中提供的示例自适应学习新任务。然而关于这种自适应机制何时生效、其底层算法原理及优化方法仍存在基础性科学问题。本论文系统研究上下文学习的机制与局限,并开发改进语言模型在语言建模与推理多基准测试上测试时自适应性能的新方法。首先评估预训练语言模型的上下文学习能力,证明模型在获得少量示例后可实现强组合泛化能力;另项分析表明当任务出现反事实变体时,其性能会出现显著退化。基于此构建上下文学习的"模型问题"测试框架,验证语言模型学习线性函数与概率形式语言等新型数学结构的上下文学习能力。在算法原理阐释方面,证明具备足够容量的Transformer模型可执行线性回归问题的迭代解与封闭形式解,并揭示这些理论解以可解释中间变量形式显现;同时发现语言模型通过专用计算电路实现概率语言的近似n元语法学习算法。基于这些洞察,开发两种增强方法:首先证实将显式n元语法计算融入模型架构可提升多领域性能;其次提出测试时训练方法,通过对输入数据执行梯度更新实现快速自适应,在抽象推理任务上显著超越标准少样本学习效果。这些成果共同推进了对语言模型适应新任务机制的理解,并为增强其测试时学习能力提供实用技术。

本文后续章节结构如下:第二章对上下文学习进行广泛行为评估,涵盖组合语义解析(第2.1节)、上下文线性回归(第2.2节)与合成语法下的上下文语言学习(第2.3节)三类任务,系统揭示现有评估体系的优势与缺陷,论证建立更系统基准的必要性。基于这些发现,第三章深入探索上下文学习器的内部机制,阐释其如何动态形成并执行学习算法:通过探针方法揭示支持推理时自适应的隐藏表征与注意力模式,从而阐明语言模型在何处及如何编码关键算法组件(第3.1-3.2节)。最终第4.2节基于实证与解释性研究的洞察,提出提升语言模型推理时能力的新策略:通过结构改进方案与测试时训练流程,在复杂基准测试上实现性能显著提升(第4.1节)。各章节共同推进了对语言模型在推理阶段适应新任务的机制理解,并为增强这种自适应能力提供技术路径。

成为VIP会员查看完整内容
0

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
【博士论文】可控图像与视频合成,201页pdf
专知会员服务
32+阅读 · 2024年9月17日
【NTU博士论文】自然语言处理的自回归生成,173页pdf
专知会员服务
26+阅读 · 2024年2月18日
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
最新《可解释人工智能》概述,50页ppt
专知
10+阅读 · 2021年3月17日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
489+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员