深度神经网络在人工智能的各个领域取得了显著的成功。

它们成功的关键因素之一是能够从数据中学习有效的特征表示,这使得它们与传统机器学习方法有所区别。本论文探讨了特征学习在神经网络训练过程中如何出现,并展示了它在基础模型适应下游应用中的关键作用。 首先,我们从理论上阐述了特征学习在神经网络中的出现。我们证明了神经网络在训练的早期阶段可以高效地学习与类别相关的模式,且只需使用最小的参数,从而避免了影响传统方法的维度灾难。我们的分析表明,这种能力源于网络利用输入数据固有结构的能力。我们开发了一个统一的分析框架,适用于通过梯度下降训练的两层网络,表征了特征学习如何超越核方法发生。我们将研究扩展到 Transformer 架构,分析了单层 Transformer 中的傅里叶特征,并揭示了模型规模与上下文学习行为之间的关系。我们的发现表明,较大的模型覆盖更多的隐藏特征,而较小的模型则强调重要特征,导致不同的上下文学习行为。 在这些理论洞察的基础上,我们开发了基础模型的实际应用。我们引入了核范数正则化方法,以提高领域泛化能力,并在多个任务中展示了持续的性能提升。我们通过一种新的正则化方法解决了对比学习中的普适性与标签效率之间的权衡问题。此外,我们提出了循环 Transformer,用于在上下文学习中实现多步梯度下降,并开发了 GemFilter 算法,利用早期层的注意力特征加速大语言模型的推理。 本论文推进了我们对神经网络中特征学习的理解,并提供了改进基础模型性能的实用方法,为开发更高效和有效的机器学习系统奠定了基础。 https://pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【伯克利博士论文】在大规模语言模型时代构建自主系统
专知会员服务
36+阅读 · 2024年12月28日
【MIT博士论文】物理启发的生成式模型
专知会员服务
30+阅读 · 2024年9月6日
【ETHZ博士论文】真实世界约束下的2D和3D生成模型
专知会员服务
24+阅读 · 2024年9月2日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
15+阅读 · 2019年1月24日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
421+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员