【ETHZ博士论文】编码在深度神经网络中的学习算法的可解释性

我们目前正经历着一场人工智能（AI）革命。生成式AI和特别是大型语言模型（LLMs）的显著改进正在推动这场革命。然而，这些大规模AI系统虽然强大，但更难理解。一旦训练完毕，它们的内部工作机制仍然是一个既迷人又可能令人恐惧的谜团。问题在于，作为这些系统的创造者，我们如何理解和控制它们，以及是什么驱动它们的行为。 在本论文中，我将尝试通过机械解释性（MI）的工具来理解深度神经网络的某些特性。这些工具让人联想到神经科学家的工具：1）分析脑细胞的连接性（连接组学） 2）测量和分析神经元活动 3）测量在进行中的计算中的主动干预的效果。尽管对大型深度学习模型的严格理解尚不可及，但在本论文中，我将提供通过迭代解释性实现这一目标的可能路径的证据：一个设计、训练和分析AI系统的迭代过程，其中通过MI获得的洞察力导致更强大和更可解释的模型。 首先，我提供了证据，证明在单独研究时，可以理解Transformer（用于LLMs的人工神经网络架构）令人着迷的上下文学习特性。作为第一步，我们分析了在少量回归数据上训练的小型Transformer模型的权重。通过使用MI的工具，我们可以逆向工程这些训练好的Transformer，这些Transformer配备了线性自注意力层，并展示了它们在前向动态中基于梯度下降和上下文数据隐含地学习内部模型。 其次，我将解决这一简单设置中的一个重要缺陷，并通过训练自回归Transformer更接近LLMs。在这里，我们训练模型来预测由线性动态获得的元素序列中的下一个元素。同样，借助神经科学家的工具，我们可以逆向工程这些自回归模型，并确定模型内部 i）构建优化问题和 ii）通过基于梯度下降的算法解决这些问题。隐藏在模型权重中的这个算法允许我们在训练后将模型重新用作上下文学习者。基于这些洞察，我们然后闭合了解释性循环，并提出了一种新的自注意力层，该层可以在设计时在单个层内解决已识别的优化问题。在提供更好解释性的同时，我们在简单实验和语言建模中展示了性能的改进。 第三，我将展示在元学习和持续学习背景下的另一个迭代解释性的例子，我们在其中改进了著名的与模型无关的元学习（MAML）的性能和解释性。MAML的目标是学习一种网络初始化，使网络能够快速适应新任务。基于通过机械解释性获得的先前洞察，我们提出了稀疏MAML，这是一种MAML变体，此外还决定主动停止学习某些权重：它学会了在哪里学习。尽管在常见的少样本分类和持续学习基准中表现出性能改进，稀疏MAML提供了一个成功解释性循环的另一个例子，因为所学习的解决方案在设计上允许更好的解释性。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】自动驾驶中的随机多智能体规划的离线学习

专知会员服务

25+阅读 · 2024年5月6日

【斯坦福博士论文】AIGC：机器学习的合成数据生成与应用，155页pdf

专知会员服务

70+阅读 · 2024年1月24日

【ETHZ博士论文】利用时间信息：自回归模型中长期依赖性学习的方法

专知会员服务

24+阅读 · 2024年1月2日

【牛津大学博士论文】深度生成模型：表示、预测、设计在生物学领域的应用

专知会员服务

26+阅读 · 2023年12月22日