过去十年,深度学习在几个重要应用中取得了巨大成功,但数学理解却落后于它惊人的经验成功。经典的机器学习理论不足以解释深度学习中的各种新现象,并为算法选择提供指导,很大程度上是由于过于简化的黑盒观点忽略了模型与优化算法之间的相互作用。本文提出了一组理论结果,考虑了模型和优化算法之间的相互作用,旨在弥合深度学习的理论和实践之间的差距,以实现泛化和优化。在优化方面,我们首先通过呈现一个在经验上工作良好的指数级增长的学习率计划来说明传统优化理论和具有标准化层的深度网络之间的不匹配。本文通过建立其与具有权重衰减的SGD的等价性来解释这种惊喜,并证明其收敛速度快且对初始化规模不敏感。在此基础上,我们设计了一种名为SIBERT的BERT变体,它可以被SGD训练,因此比ADAM等自适应算法更节省内存。最后,提出了第一个可证明的通用场景,根据经验观察,梯度下降以非单调的方式减少损失。在泛化方面,本文研究了优化算法的隐式偏差,即尽管存在因模型过参数化而泛化能力差的解,但算法仍返回泛化能力好的解。本文首先给出了一个严格的理由,为什么卷积网络比全连接网络的样本效率更高。为经验观察提供了理论证明,包括矩阵分解在内的深度线性网络,是由从小初始化隐偏置到低秩解的梯度下降训练的。我们还确定了一个条件,即梯度下降与镜像下降等价,可以用来理解非线性模型的隐式偏差,并恢复几个先前的结果。进一步表明,当有一定的梯度噪声或其学习率大于2的损失锐度时,梯度下降对"更平坦"的解决方案有隐性偏差。

成为VIP会员查看完整内容
52

相关内容

普林斯顿大学,又译 普林斯敦大学,常被直接称为 普林斯顿,是美国一所私立研究型大学,现为八所常青藤学校之一,绰号为老虎。
【MIT博士论文】优化理论与机器学习实践
专知会员服务
90+阅读 · 2022年6月30日
【哈佛大学】深度学习理论实证探究
专知会员服务
42+阅读 · 2021年11月1日
【MIT博士论文】优化理论与机器学习实践
专知
2+阅读 · 2022年6月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年3月14日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
10+阅读 · 2021年2月18日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
相关论文
Arxiv
0+阅读 · 2023年3月14日
Arxiv
23+阅读 · 2022年2月24日
Arxiv
10+阅读 · 2021年2月18日
A Survey on Bayesian Deep Learning
Arxiv
63+阅读 · 2020年7月2日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
Arxiv
25+阅读 · 2018年1月24日
微信扫码咨询专知VIP会员