https://pages.cs.wisc.edu/~zhmeishi/Thesis_Zhenmei_Shi.pdf 深度神经网络在人工智能各个领域取得了显著的成功。其成功的关键因素之一是它们从数据中学习有效特征表示的能力,这使得它们与传统的机器学习方法有所不同。本论文探讨了特征学习在神经网络训练中的出现,并展示了其在基础模型适应下游应用中的关键作用。

首先,我们提供了关于神经网络中特征学习出现的理论见解。我们展示了网络在早期训练阶段可以使用最小的参数有效地学习与类别相关的模式,从而避免了传统方法中常见的维度灾难。我们的分析揭示了这一能力来源于网络能够利用输入数据的固有结构。我们为通过梯度下降训练的两层网络开发了一个统一的分析框架,刻画了特征学习如何超越核方法进行发生。我们将研究扩展到Transformer架构,分析了单层Transformer中的傅里叶特征,并揭示了模型规模与上下文学习行为之间的关系。我们的研究发现,较大的模型覆盖了更多的隐藏特征,而较小的模型则强调重要特征,导致了不同的上下文学习行为。 基于这些理论见解,我们为基础模型开发了实际应用。我们引入了核范数正则化以提高领域泛化能力,展示了在各种任务中一致的性能提升。我们通过一种新型正则化方法解决了对比学习中普适性和标签效率之间的权衡问题。此外,我们提出了回环Transformer,用于实现多步梯度下降的上下文学习,并开发了GemFilter算法,利用早期层的注意力特征来加速大型语言模型推理。 本论文推动了我们对神经网络中特征学习的理解,并提供了改善基础模型性能的实际方法,从而开发出更高效、更有效的机器学习系统。**

成为VIP会员查看完整内容
17

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【NTU博士论文】数据高效的深度多模态学习
专知会员服务
18+阅读 · 1月31日
【NUS博士论文】视频语义理解中的因果模型
专知会员服务
31+阅读 · 2024年10月30日
【博士论文】高效且有效的基础大型多模态模型学习
专知会员服务
37+阅读 · 2024年10月21日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
28+阅读 · 2024年8月23日
综述| 当图神经网络遇上强化学习
图与推荐
31+阅读 · 2022年7月1日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
论文浅尝 | 多内容实体和关系联合抽取的对抗训练
开放知识图谱
42+阅读 · 2018年12月4日
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
国家自然科学基金
22+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
431+阅读 · 2023年3月31日
Arxiv
72+阅读 · 2023年3月26日
Arxiv
157+阅读 · 2023年3月24日
Arxiv
22+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
22+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
相关论文
微信扫码咨询专知VIP会员