本论文研究了深度学习的显著成功。它提出了一种观点:与其开发黑箱式的泛化界限,更有成效的理解现代深度学习成功的方法,是通过神经网络在特定领域中灵活性与结构之间的精巧互动。在这些领域中,我们可以通过以下两个方面来理解现代深度学习: (1) 适应数据中的结构,(2) 利用其结构(如架构、预训练初始化等)进行适应。我们通过理论和实证相结合的方式建立这一观点。

我们首先审视传统的学习理论工具:泛化界限。具体而言,我们研究了算法稳定性作为解释梯度下降在过参数化神经网络中表现的可能框架。我们提供了实证证据,表明均匀稳定性并未以足够强度出现,因此无法解释神经网络的泛化表现。

接着,与其关注如何驯服深度学习的灵活性,我们将深度学习的灵活性重新定义为在结构足够时能够进行有效适应的强大能力。论文的剩余部分,我们仔细研究了三个关键场景——在图像数据上的卷积神经网络、在基本算法任务上的简单 Transformer,以及在自然语言数据上的预训练语言模型——这些场景展示了神经网络在数据中适应结构和利用其结构快速灵活地进行适应的卓越能力。通过这三种场景,回溯了过去六年训练方法和范式的演变。

与我们最初所讨论的黑箱式泛化方法所呈现的悲观图景不同,我们通过这些场景提倡一种更加机械化且细致入微的理解方式,探讨神经网络在特定领域中灵活性与结构之间的互动关系。

成为VIP会员查看完整内容
25

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【MIT博士论文】物理启发的生成式模型
专知会员服务
30+阅读 · 2024年9月6日
【MIT博士论文】理解与提升机器学习模型的表征鲁棒性
专知会员服务
26+阅读 · 2024年8月26日
【CMU博士论文】经典方法对现代机器学习的改进
专知会员服务
26+阅读 · 2024年8月16日
【CMU博士论文】以人为中心的机器学习:统计和算法视角
专知会员服务
40+阅读 · 2023年10月1日
论文浅尝 | 采用多层注意力机制的事件检测
开放知识图谱
23+阅读 · 2019年8月24日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
15+阅读 · 2019年1月24日
SFFAI报告 | 常建龙 :深度卷积网络中的卷积算子研究进展
人工智能前沿讲习班
11+阅读 · 2018年10月22日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
421+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
150+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员