随着神经网络语言模型的广泛应用,深入理解其内部运行机制的需求日益迫切。本论文旨在揭示大型语言模型(LLMs)内部潜在计算规律,为未来强大AI系统的监测、控制和对齐奠定理论基础。基于开源语言模型,我们重点探索了四个关键领域:神经元层面的概念编码、模型初始化间学习特征的普适性、时空表征的存在性,以及基础动力系统建模。第二章改进了最优稀疏分类方法在神经网络探测中的应用,通过这种稀疏探测技术,我们在全尺寸LLMs中同时发现了单语义神经元(专一编码单一概念)和多语义神经元(叠加表征多个概念),验证了简化模型的预测。第三章通过计算大数据集上神经元激活的成对相关性,系统识别并分类了不同模型初始化间的普适性神经元。研究发现1-5%的神经元具有普适性特征,这些神经元往往具有明确的可解释性,我们将其划分为不同的神经元家族。为探究时空表征特性,第四章通过精心构建的现实世界实体数据集分析LLMs激活模式。研究发现模型能够学习多尺度的线性时空表征,这些表征对提示变化具有鲁棒性,且在不同实体类型间保持统一。我们识别出专门编码空间坐标的"空间神经元"和时间坐标的"时间神经元"。第五章采用最优稀疏回归技术改进了非线性动力系统稀疏识别(SINDy)框架,在典型微分系统中实现了样本效率和支持恢复率的提升。基于此改进,我们进一步研究了LLMs在上下文学习中表征动力系统的能力,发现了跟踪底层系统状态的内部表征。

成为VIP会员查看完整内容
12

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【ETHZ博士论文】金融网络与图学习的其他探索
专知会员服务
18+阅读 · 1月22日
【ETHZ博士论文】机器学习代码: 安全性与可靠性
专知会员服务
19+阅读 · 2024年10月25日
【MIT博士论文】物理启发的生成式模型
专知会员服务
31+阅读 · 2024年9月6日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
26+阅读 · 2024年8月16日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
447+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
163+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员