【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf - 专知VIP

会员服务 ·

35

普林斯顿大学 (Princeton University) · 博士论文 · 优化 · 深度学习 · 泛化性 ·

2023 年 1 月 28 日

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

过去十年，深度学习在几个重要应用中取得了巨大成功，但数学理解却落后于它惊人的经验成功。经典的机器学习理论不足以解释深度学习中的各种新现象，并为算法选择提供指导，很大程度上是由于过于简化的黑盒观点忽略了模型与优化算法之间的相互作用。本文提出了一组理论结果，考虑了模型和优化算法之间的相互作用，旨在弥合深度学习的理论和实践之间的差距，以实现泛化和优化。在优化方面，我们首先通过呈现一个在经验上工作良好的指数级增长的学习率计划来说明传统优化理论和具有标准化层的深度网络之间的不匹配。本文通过建立其与具有权重衰减的SGD的等价性来解释这种惊喜，并证明其收敛速度快且对初始化规模不敏感。在此基础上，我们设计了一种名为SIBERT的BERT变体，它可以被SGD训练，因此比ADAM等自适应算法更节省内存。最后，提出了第一个可证明的通用场景，根据经验观察，梯度下降以非单调的方式减少损失。在泛化方面，本文研究了优化算法的隐式偏差，即尽管存在因模型过参数化而泛化能力差的解，但算法仍返回泛化能力好的解。本文首先给出了一个严格的理由，为什么卷积网络比全连接网络的样本效率更高。为经验观察提供了理论证明，包括矩阵分解在内的深度线性网络，是由从小初始化隐偏置到低秩解的梯度下降训练的。我们还确定了一个条件，即梯度下降与镜像下降等价，可以用来理解非线性模型的隐式偏差，并恢复几个先前的结果。进一步表明，当有一定的梯度噪声或其学习率大于2的损失锐度时，梯度下降对"更平坦"的解决方案有隐性偏差。

成为VIP会员查看完整内容

53

相关内容

普林斯顿大学 (Princeton University)

普林斯顿大学 (Princeton University)

普林斯顿大学，又译 普林斯敦大学，常被直接称为 普林斯顿，是美国一所私立研究型大学，现为八所常青藤学校之一，绰号为老虎。

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

专知会员服务

66+阅读 · 2023年1月17日

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

专知会员服务

48+阅读 · 2022年10月24日

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

专知会员服务

150+阅读 · 2022年8月29日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知会员服务

94+阅读 · 2022年6月30日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知会员服务

61+阅读 · 2022年4月3日

【哈佛大学】深度学习理论实证探究

【哈佛大学】深度学习理论实证探究

专知会员服务

43+阅读 · 2021年11月1日

UIUC《深度学习理论》课程笔记，Matus 教授最新讲解，125页pdf

UIUC《深度学习理论》课程笔记，Matus 教授最新讲解，125页pdf

专知会员服务

63+阅读 · 2021年10月10日

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

专知会员服务

64+阅读 · 2021年1月8日

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

专知

2+阅读 · 2022年11月13日

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

专知

4+阅读 · 2022年10月24日

如何提升深度学习可靠性？DeepMind研究科学家Stutz博士论文《理解改进深度学习中的鲁棒性和不确定性估计》，291页pdf

如何提升深度学习可靠性？DeepMind研究科学家Stutz博士论文《理解改进深度学习中的鲁棒性和不确定性估计》，291页pdf

专知

3+阅读 · 2022年10月21日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

专知

6+阅读 · 2022年8月29日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知

2+阅读 · 2022年6月30日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知

6+阅读 · 2022年4月3日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

相变材料应变工程与锗多栅晶体管的优化集成方案

国家自然科学基金

0+阅读 · 2015年12月31日

通信受限多个体网络的一致性和分布式优化研究

国家自然科学基金

8+阅读 · 2014年12月31日

学习理论中相似度量学习及相关课题的研究

国家自然科学基金

2+阅读 · 2013年12月31日

大数据中的广义稀疏几何结构学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

锥优化问题的光滑逼近精确罚理论与算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

无线感知网络分布式协同学习稀疏核学习机的理论和算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

有一定物理基础的神经网络及其泛化技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

对偶自适应控制问题研究

国家自然科学基金

0+阅读 · 2008年12月31日

Bayesian Generalization Error in Linear Neural Networks with Concept Bottleneck Structure and Multitask Formulation

Arxiv

0+阅读 · 2023年3月16日

A Large and Diverse Arabic Corpus for Language Modeling

Arxiv

0+阅读 · 2023年3月15日

Generalization in Neural Networks: A Broad Survey

Arxiv

0+阅读 · 2023年3月14日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Bayesian Deep Learning via Subnetwork Inference

Arxiv

10+阅读 · 2021年2月18日

Learning Latent Representations to Influence Multi-Agent Interaction

Arxiv

11+阅读 · 2020年11月12日

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

Arxiv

15+阅读 · 2020年7月1日

A Survey on Deep Transfer Learning

A Survey on Deep Transfer Learning

Arxiv

11+阅读 · 2018年8月6日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

VIP会员

相关主题

普林斯顿大学 (Princeton University)

相关VIP内容

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

【牛津大学博士论文】深度生成模型的鲁棒性、结构性和层次性，241页pdf

专知会员服务

66+阅读 · 2023年1月17日

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

专知会员服务

48+阅读 · 2022年10月24日

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

专知会员服务

150+阅读 · 2022年8月29日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知会员服务

89+阅读 · 2022年7月9日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知会员服务

94+阅读 · 2022年6月30日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知会员服务

56+阅读 · 2022年4月19日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知会员服务

61+阅读 · 2022年4月3日

【哈佛大学】深度学习理论实证探究

【哈佛大学】深度学习理论实证探究

专知会员服务

43+阅读 · 2021年11月1日

UIUC《深度学习理论》课程笔记，Matus 教授最新讲解，125页pdf

UIUC《深度学习理论》课程笔记，Matus 教授最新讲解，125页pdf

专知会员服务

63+阅读 · 2021年10月10日

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

专知会员服务

64+阅读 · 2021年1月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《巡飞弹药（爆炸性无人机）威胁态势分析》最新24页报告

《军用后勤无人机：破解战场运输挑战的创新方案》

人工智能战争：以色列、伊朗与新型AI战争形态

《俄乌战争：现代战争未来的启示与经验》

相关资讯

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

【斯坦福大学博士论文】鲁棒学习:信息论和算法，88页pdf

专知

2+阅读 · 2022年11月13日

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

【加州理工学院博士论文】神经元网络的优化与泛化，98页pdf

专知

4+阅读 · 2022年10月24日

如何提升深度学习可靠性？DeepMind研究科学家Stutz博士论文《理解改进深度学习中的鲁棒性和不确定性估计》，291页pdf

如何提升深度学习可靠性？DeepMind研究科学家Stutz博士论文《理解改进深度学习中的鲁棒性和不确定性估计》，291页pdf

专知

3+阅读 · 2022年10月21日

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

【牛津大学博士论文】持续学习的高效机器学习，213页pdf

专知

9+阅读 · 2022年10月19日

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

【牛津大学博士论文】深度强化学习的归纳偏差和泛化,168页pdf

专知

10+阅读 · 2022年10月6日

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

数学推导详解DL理论！普林斯顿最新127页pdf《深度学习理论》简明书，带你理解深度学习优化、泛化等

专知

6+阅读 · 2022年8月29日

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

【斯坦福大学博士论文】监督和自监督深度学习泛化的理论见解

专知

3+阅读 · 2022年7月9日

【MIT博士论文】优化理论与机器学习实践

【MIT博士论文】优化理论与机器学习实践

专知

2+阅读 · 2022年6月30日

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

【CMU博士论文】缓解负迁移提高迁移学习的泛化和效率，201页pdf

专知

3+阅读 · 2022年4月19日

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

【MIT-Kenji博士论文】深度学习中的优化与可扩展性，260页pdf

专知

6+阅读 · 2022年4月3日

相关基金

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

相变材料应变工程与锗多栅晶体管的优化集成方案

国家自然科学基金

0+阅读 · 2015年12月31日

通信受限多个体网络的一致性和分布式优化研究

国家自然科学基金

8+阅读 · 2014年12月31日

学习理论中相似度量学习及相关课题的研究

国家自然科学基金

2+阅读 · 2013年12月31日

大数据中的广义稀疏几何结构学习方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

锥优化问题的光滑逼近精确罚理论与算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

无线感知网络分布式协同学习稀疏核学习机的理论和算法研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

有一定物理基础的神经网络及其泛化技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

对偶自适应控制问题研究

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Bayesian Generalization Error in Linear Neural Networks with Concept Bottleneck Structure and Multitask Formulation

Arxiv

0+阅读 · 2023年3月16日

A Large and Diverse Arabic Corpus for Language Modeling

Arxiv

0+阅读 · 2023年3月15日

Generalization in Neural Networks: A Broad Survey

Arxiv

0+阅读 · 2023年3月14日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Bayesian Deep Learning via Subnetwork Inference

Arxiv

10+阅读 · 2021年2月18日

Learning Latent Representations to Influence Multi-Agent Interaction

Arxiv

11+阅读 · 2020年11月12日

A Survey on Bayesian Deep Learning

A Survey on Bayesian Deep Learning

Arxiv

64+阅读 · 2020年7月2日

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

Arxiv

15+阅读 · 2020年7月1日

A Survey on Deep Transfer Learning

A Survey on Deep Transfer Learning

Arxiv

11+阅读 · 2018年8月6日

Deep Learning for Sentiment Analysis : A Survey

Arxiv

25+阅读 · 2018年1月24日

微信扫码咨询专知VIP会员