本文的目标是发展人工神经网络学习的优化和泛化理论基础。这篇论文涉及两个核心问题。给定训练数据和网络架构:1)哪种权重设置对未见数据的泛化效果最好,为什么?2)应该使用什么优化器来恢复这个权重设置?

https://www.zhuanzhi.ai/paper/004b660b4e92a46e1ca507001a0d5d54

在优化方面,神经网络训练的一个基本特征是,网络权重仅通过其在网络架构中的出现间接影响损失函数。这篇论文提出了一个三步框架来派生新的“架构感知”优化算法。第一步称为函数优化,是根据函数扰动对损失函数的一系列展开进行优化。第二步是推导出体系结构摄动边界,将函数摄动的大小与权重摄动的大小联系起来。第三步是将这些体系结构扰动边界代入损耗的函数多数化,并通过最小化得到优化算法。这构成了主要最小化元算法在神经网络中的应用。在泛化方面,最近的一项有前途的工作是应用PAC-Bayes理论为神经网络推导非空泛化保证。由于这些保证控制了网络集合的平均风险,它们没有解决哪一个单独的网络应该是最好的泛化。为了弥补这一差距,本文重新点燃了核文献中的一个老思想:贝叶斯点机。贝叶斯点机是一个单一分类器,它近似于分类器集合的集合预测。由于聚合减少了集合预测的方差,贝叶斯点机往往比其他集合成员更好地进行泛化。本文证明,当网络宽度和归一化裕度都无穷大时,与训练集一致的神经网络空间集中在贝叶斯点机上。这激发了返回大标准化裕度的广泛网络的实践。这些想法的潜在应用包括不确定性量化的新方法,神经硬件更有效的数值表示,以及在学习问题中传递超参数的优化器。

成为VIP会员查看完整内容
45

相关内容

加州理工学院是一所位于美国加利福尼亚州帕萨迪纳的私立大学,创建于1891年。现有1204名研究生和977名本科生,约有300名教授以及超过600名研究学者。另外,美国国家航空航天局的喷射推进实验室也是由加州理工学院管理。 虽然加州理工学院的规模不大,但是它却是全球最顶尖的大学之一。维基百科

【伯克利博士论文】学习在动态环境中泛化,103页pdf
专知会员服务
69+阅读 · 2022年10月12日
【多伦多大学博士论文】深度学习中的训练效率和鲁棒性
专知会员服务
27+阅读 · 2020年10月24日
为什么深度学习是非参数的?
THU数据派
1+阅读 · 2022年3月29日
一文读懂生成对抗网络GANs(附学习资源)
数据派THU
10+阅读 · 2018年2月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年12月7日
Arxiv
63+阅读 · 2021年6月18日
Arxiv
32+阅读 · 2021年3月8日
Optimization for deep learning: theory and algorithms
Arxiv
102+阅读 · 2019年12月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员