【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因 - 专知VIP

会员服务 ·

17

博士论文 · 深度学习 ·

2024 年 12 月 2 日

【CMU博士论文】适应结构与利用结构进行适应：探索现代深度学习成功的原因

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本论文研究了深度学习的显著成功。它提出了一种观点：与其开发黑箱式的泛化界限，更有成效的理解现代深度学习成功的方法，是通过神经网络在特定领域中灵活性与结构之间的精巧互动。在这些领域中，我们可以通过以下两个方面来理解现代深度学习： (1) 适应数据中的结构，(2) 利用其结构（如架构、预训练初始化等）进行适应。我们通过理论和实证相结合的方式建立这一观点。

我们首先审视传统的学习理论工具：泛化界限。具体而言，我们研究了算法稳定性作为解释梯度下降在过参数化神经网络中表现的可能框架。我们提供了实证证据，表明均匀稳定性并未以足够强度出现，因此无法解释神经网络的泛化表现。

接着，与其关注如何驯服深度学习的灵活性，我们将深度学习的灵活性重新定义为在结构足够时能够进行有效适应的强大能力。论文的剩余部分，我们仔细研究了三个关键场景——在图像数据上的卷积神经网络、在基本算法任务上的简单 Transformer，以及在自然语言数据上的预训练语言模型——这些场景展示了神经网络在数据中适应结构和利用其结构快速灵活地进行适应的卓越能力。通过这三种场景，回溯了过去六年训练方法和范式的演变。

与我们最初所讨论的黑箱式泛化方法所呈现的悲观图景不同，我们通过这些场景提倡一种更加机械化且细致入微的理解方式，探讨神经网络在特定领域中灵活性与结构之间的互动关系。

成为VIP会员查看完整内容

26

相关内容

博士论文

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【ETHZ博士论文】金融网络与图学习的其他探索

【ETHZ博士论文】金融网络与图学习的其他探索

专知会员服务

18+阅读 · 1月22日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

27+阅读 · 1月12日

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

专知会员服务

25+阅读 · 1月10日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

28+阅读 · 2024年8月16日

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

专知会员服务

29+阅读 · 2024年8月15日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

47+阅读 · 2024年7月21日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

【CMU博士论文】以人为中心的机器学习:统计和算法视角

【CMU博士论文】以人为中心的机器学习:统计和算法视角

专知会员服务

40+阅读 · 2023年10月1日

【哈佛大学Marinka Zitnik】图神经网络在计算生物医学中的应用：药物发现与疾病治疗

【哈佛大学Marinka Zitnik】图神经网络在计算生物医学中的应用：药物发现与疾病治疗

专知会员服务

46+阅读 · 2022年4月15日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

专知

15+阅读 · 2019年4月6日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

15+阅读 · 2018年12月26日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

80+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

468+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

170+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

相关VIP内容

【ETHZ博士论文】金融网络与图学习的其他探索

【ETHZ博士论文】金融网络与图学习的其他探索

专知会员服务

18+阅读 · 1月22日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

27+阅读 · 1月12日

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

【博士论文】理解特征学习中的训练与适应：从两层网络到基础模型

专知会员服务

25+阅读 · 1月10日

【MIT博士论文】物理启发的生成式模型

【MIT博士论文】物理启发的生成式模型

专知会员服务

31+阅读 · 2024年9月6日

【CMU博士论文】经典方法对现代机器学习的改进

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

28+阅读 · 2024年8月16日

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

专知会员服务

29+阅读 · 2024年8月15日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

47+阅读 · 2024年7月21日

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

【牛津大学博士论文】深度主动学习与数据子集选择的进展：信息论直觉下的统一原则

专知会员服务

43+阅读 · 2024年3月20日

【CMU博士论文】以人为中心的机器学习:统计和算法视角

【CMU博士论文】以人为中心的机器学习:统计和算法视角

专知会员服务

40+阅读 · 2023年10月1日

【哈佛大学Marinka Zitnik】图神经网络在计算生物医学中的应用：药物发现与疾病治疗

【哈佛大学Marinka Zitnik】图神经网络在计算生物医学中的应用：药物发现与疾病治疗

专知会员服务

46+阅读 · 2022年4月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于深度学习模型的图像军事目标检测》

【ICCV2025】CL-Splats：结合局部优化的高斯泼洒持续学习方法

中文版 | 战场创新：以色列-伊朗与俄罗斯-乌克兰战场如何重塑现代战争

《现代战争人工智能：在不确定性格局中驾驭伦理决策机制的复杂性》

相关资讯

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

医疗机器学习综述，谷歌Jeff Dean等最新论文【附12页论文下载】

专知

15+阅读 · 2019年4月6日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

16+阅读 · 2019年1月24日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

15+阅读 · 2018年12月26日

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

SFFAI报告 | 常建龙：深度卷积网络中的卷积算子研究进展

人工智能前沿讲习班

11+阅读 · 2018年10月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

【迁移学习】中科院计算所王晋东：迁移学习的发展和现状

产业智能官

23+阅读 · 2017年11月21日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向多源大数据的鲁棒聚类模型与算法研究

国家自然科学基金

6+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

面向社会化媒体异构大数据的快速组合聚类研究

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

16+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

40+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

213+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

80+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

468+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

145+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

76+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

170+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员