【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

深度神经网络在人工智能的各个领域取得了显著的成功。

它们成功的关键因素之一是能够从数据中学习有效的特征表示，这使得它们与传统机器学习方法有所区别。本论文探讨了特征学习在神经网络训练过程中如何出现，并展示了它在基础模型适应下游应用中的关键作用。首先，我们从理论上阐述了特征学习在神经网络中的出现。我们证明了神经网络在训练的早期阶段可以高效地学习与类别相关的模式，且只需使用最小的参数，从而避免了影响传统方法的维度灾难。我们的分析表明，这种能力源于网络利用输入数据固有结构的能力。我们开发了一个统一的分析框架，适用于通过梯度下降训练的两层网络，表征了特征学习如何超越核方法发生。我们将研究扩展到 Transformer 架构，分析了单层 Transformer 中的傅里叶特征，并揭示了模型规模与上下文学习行为之间的关系。我们的发现表明，较大的模型覆盖更多的隐藏特征，而较小的模型则强调重要特征，导致不同的上下文学习行为。在这些理论洞察的基础上，我们开发了基础模型的实际应用。我们引入了核范数正则化方法，以提高领域泛化能力，并在多个任务中展示了持续的性能提升。我们通过一种新的正则化方法解决了对比学习中的普适性与标签效率之间的权衡问题。此外，我们提出了循环 Transformer，用于在上下文学习中实现多步梯度下降，并开发了 GemFilter 算法，利用早期层的注意力特征加速大语言模型的推理。本论文推进了我们对神经网络中特征学习的理解，并提供了改进基础模型性能的实用方法，为开发更高效和有效的机器学习系统奠定了基础。 https://pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【伯克利博士论文】在大规模语言模型时代构建自主系统

专知会员服务

39+阅读 · 2024年12月28日

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

专知会员服务

26+阅读 · 2024年12月2日

【阿姆斯特丹博士论文】探索低资源神经机器翻译的解决方案

专知会员服务

13+阅读 · 2024年11月28日

【普林斯顿博士论文】大型模型的高效扩展：优化原则与数据方面

专知会员服务

40+阅读 · 2024年10月6日