在这个大型语言模型(LLMs)及其他巨型神经网络迅猛发展的时代,我们旨在从零出发,分析简化情境,作为理解这些大型模型功能机制的基础性步骤。我们从三个方面展开探讨。 在表达能力方面,我们研究了一类简化的图网络——图增强多层感知机(Graph-Augmented Multi-layer Perceptrons, GA-MLPs)的函数类,并与经典图神经网络(Graph Neural Networks, GNNs)进行了对比。我们采用图同构测试和带属性路径计数等方式来衡量它们的表示能力。 在优化性方面,我们从理论角度分析了神经网络训练中由于大学习率引发的不稳定性现象,即“稳定性边缘”(Edge of Stability)。我们研究了损失函数在训练过程中为何会呈现出不稳定轨迹的条件,尤其是其在低维子空间中产生振荡的情况。随后,我们将这一特性应用于一些简单但具有代表性的学习问题中,如教师-学生框架下的两层单神经元同构网络和矩阵分解问题。 在推理任务中的数据分布方面,我们提出将下一个 token 的预测分解为两个部分:上下文内推理(in-context reasoning)分布关联(distributional association)。我们在一个可控的合成实验设置中,从实证与理论两个角度对这一分解方法进行了研究,发现前馈层(feed-forward layers)更倾向于学习如二元语法(bigram)等简单的分布关联,而注意力层则主要负责上下文内的推理。最后,基于这些理解,我们进一步提供了实验证据,说明对前馈层进行修改可以提升 LLM 在某些任务上的表现。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】物理启发的生成式模型
专知会员服务
25+阅读 · 2024年9月6日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
26+阅读 · 2024年8月26日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员