《语言模型的推理时间学习算法》162页博士论文 - 专知VIP

会员服务 ·

0

AI与军事 · 博士论文 · 大语言模型 ·

《语言模型的推理时间学习算法》162页博士论文

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

现代语言模型能够通过上下文学习执行复杂任务——它们无需参数更新即可根据输入中提供的示例自适应学习新任务。然而关于这种自适应机制何时生效、其底层算法原理及优化方法仍存在基础性科学问题。本论文系统研究上下文学习的机制与局限，并开发改进语言模型在语言建模与推理多基准测试上测试时自适应性能的新方法。首先评估预训练语言模型的上下文学习能力，证明模型在获得少量示例后可实现强组合泛化能力；另项分析表明当任务出现反事实变体时，其性能会出现显著退化。基于此构建上下文学习的"模型问题"测试框架，验证语言模型学习线性函数与概率形式语言等新型数学结构的上下文学习能力。在算法原理阐释方面，证明具备足够容量的Transformer模型可执行线性回归问题的迭代解与封闭形式解，并揭示这些理论解以可解释中间变量形式显现；同时发现语言模型通过专用计算电路实现概率语言的近似n元语法学习算法。基于这些洞察，开发两种增强方法：首先证实将显式n元语法计算融入模型架构可提升多领域性能；其次提出测试时训练方法，通过对输入数据执行梯度更新实现快速自适应，在抽象推理任务上显著超越标准少样本学习效果。这些成果共同推进了对语言模型适应新任务机制的理解，并为增强其测试时学习能力提供实用技术。

本文后续章节结构如下：第二章对上下文学习进行广泛行为评估，涵盖组合语义解析（第2.1节）、上下文线性回归（第2.2节）与合成语法下的上下文语言学习（第2.3节）三类任务，系统揭示现有评估体系的优势与缺陷，论证建立更系统基准的必要性。基于这些发现，第三章深入探索上下文学习器的内部机制，阐释其如何动态形成并执行学习算法：通过探针方法揭示支持推理时自适应的隐藏表征与注意力模式，从而阐明语言模型在何处及如何编码关键算法组件（第3.1-3.2节）。最终第4.2节基于实证与解释性研究的洞察，提出提升语言模型推理时能力的新策略：通过结构改进方案与测试时训练流程，在复杂基准测试上实现性能显著提升（第4.1节）。各章节共同推进了对语言模型在推理阶段适应新任务的机制理解，并为增强这种自适应能力提供技术路径。

成为VIP会员查看完整内容

0

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2月8日

【博士论文】可控图像与视频合成，201页pdf

【博士论文】可控图像与视频合成，201页pdf

专知会员服务

32+阅读 · 2024年9月17日

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

专知会员服务

43+阅读 · 2024年6月7日

《决策成本：解读决策中记忆、强化学习和神经连接的相互作用》166页博士论文

《决策成本：解读决策中记忆、强化学习和神经连接的相互作用》166页博士论文

专知会员服务

54+阅读 · 2024年4月22日

【NTU博士论文】自然语言处理的自回归生成，173页pdf

【NTU博士论文】自然语言处理的自回归生成，173页pdf

专知会员服务

26+阅读 · 2024年2月18日

【CMU博士论文】语言理解与生成优化技术，145页pdf

【CMU博士论文】语言理解与生成优化技术，145页pdf

专知会员服务

36+阅读 · 2023年11月22日

《对抗攻击下的多智能体强化学习系统控制》222页博士论文

《对抗攻击下的多智能体强化学习系统控制》222页博士论文

专知会员服务

85+阅读 · 2023年10月25日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

专知会员服务

217+阅读 · 2023年5月9日

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

专知会员服务

11+阅读 · 2022年10月7日

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

专知

57+阅读 · 2023年4月6日

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

专知

69+阅读 · 2022年11月19日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

50+阅读 · 2022年6月2日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

10+阅读 · 2021年3月17日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

222+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

489+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

大语言模型

相关VIP内容

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2月8日

【博士论文】可控图像与视频合成，201页pdf

【博士论文】可控图像与视频合成，201页pdf

专知会员服务

32+阅读 · 2024年9月17日

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

【CMU博士论文】多模态学习的对齐性、鲁棒性和泛化性，220页pdf

专知会员服务

43+阅读 · 2024年6月7日

《决策成本：解读决策中记忆、强化学习和神经连接的相互作用》166页博士论文

《决策成本：解读决策中记忆、强化学习和神经连接的相互作用》166页博士论文

专知会员服务

54+阅读 · 2024年4月22日

【NTU博士论文】自然语言处理的自回归生成，173页pdf

【NTU博士论文】自然语言处理的自回归生成，173页pdf

专知会员服务

26+阅读 · 2024年2月18日

【CMU博士论文】语言理解与生成优化技术，145页pdf

【CMU博士论文】语言理解与生成优化技术，145页pdf

专知会员服务

36+阅读 · 2023年11月22日

《对抗攻击下的多智能体强化学习系统控制》222页博士论文

《对抗攻击下的多智能体强化学习系统控制》222页博士论文

专知会员服务

85+阅读 · 2023年10月25日

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

【牛津大学博士论文】基于深度学习和聚类的连续数据离散表示，195页pdf

专知会员服务

39+阅读 · 2023年5月27日

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

大模型ChatGPT如何用于知识图谱构建？《利用大型语言模型增强知识图谱构建》论文

专知会员服务

217+阅读 · 2023年5月9日

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

【博士论文】《表征 4 输入 4 输出复值参考块模型的复值神经网络模型逼近》美国空军技术学院2022最新208页论文

专知会员服务

11+阅读 · 2022年10月7日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军：无人机视为弹药

《语言模型的推理时间学习算法》162页博士论文

军事人工智能的能源挑战

自主智能：多模态人工智能代理重塑技术未来

相关资讯

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

《基于模型的系统工程方法应用于任务工程建模用例》169页报告

专知

57+阅读 · 2023年4月6日

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

《自主任务规划和管理系统的当前进展：AUV 和 UAV 视角》华盛顿大学等23页论文

专知

69+阅读 · 2022年11月19日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

50+阅读 · 2022年6月2日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

10+阅读 · 2021年3月17日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

粗糙回归模型与算法研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

积分型样条函数逼近新理论、新方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于代数结构及公理语义的泛型约束方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

106+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

222+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

489+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员