【NYU博士论文】神经网络中的简单结构：论表达能力、优化性与数据分布

在这个大型语言模型（LLMs）及其他巨型神经网络迅猛发展的时代，我们旨在从零出发，分析简化情境，作为理解这些大型模型功能机制的基础性步骤。我们从三个方面展开探讨。在表达能力方面，我们研究了一类简化的图网络——图增强多层感知机（Graph-Augmented Multi-layer Perceptrons, GA-MLPs）的函数类，并与经典图神经网络（Graph Neural Networks, GNNs）进行了对比。我们采用图同构测试和带属性路径计数等方式来衡量它们的表示能力。在优化性方面，我们从理论角度分析了神经网络训练中由于大学习率引发的不稳定性现象，即“稳定性边缘”（Edge of Stability）。我们研究了损失函数在训练过程中为何会呈现出不稳定轨迹的条件，尤其是其在低维子空间中产生振荡的情况。随后，我们将这一特性应用于一些简单但具有代表性的学习问题中，如教师-学生框架下的两层单神经元同构网络和矩阵分解问题。在推理任务中的数据分布方面，我们提出将下一个 token 的预测分解为两个部分：上下文内推理（in-context reasoning）与分布关联（distributional association）。我们在一个可控的合成实验设置中，从实证与理论两个角度对这一分解方法进行了研究，发现前馈层（feed-forward layers）更倾向于学习如二元语法（bigram）等简单的分布关联，而注意力层则主要负责上下文内的推理。最后，基于这些理解，我们进一步提供了实验证据，说明对前馈层进行修改可以提升 LLM 在某些任务上的表现。

成为VIP会员查看完整内容

相关内容

博士论文

关注 114

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】迈向人工神经科学：语言模型可解释性分析方法

专知会员服务

21+阅读 · 4月1日

【伯克利博士论文】迈向视觉-语言基础模型：局限、改进与泛化

专知会员服务

27+阅读 · 3月12日

【博士论文】特征学习中的训练与适应理解：从两层网络到基础模型

专知会员服务

21+阅读 · 2月18日

【CMU博士论文】机器人学习中的触觉感知：从开发到部署

专知会员服务

23+阅读 · 2024年9月9日