本文研究了深度学习理论中一个基本的开放挑战: 为什么深度网络在过度参数化、非正则化和拟合训练数据为零误差的情况下仍能很好地泛化? 在论文的第一部分,我们将实证研究如何通过随机梯度下降训练深度网络隐式控制网络容量。随后,为了说明这如何导致更好的泛化,我们将推导基于数据的一致收敛的泛化边界,并改进参数计数的依赖性。由于其简单性和通用性,一致收敛实际上已经成为深度学习文献中使用最广泛的工具。鉴于它的流行,在这篇论文中,我们也将后退一步,确定一致收敛的基本极限,作为解释泛化的工具。特别地,我们将证明在一些过度参数化的设置的例子中,任何一致收敛界将只提供一个空洞的泛化界。考虑到这一点,在论文的最后一部分,我们将改变航向,并引入一种经验技术来估计使用未标记数据的泛化。我们的技术不依赖于任何基于一致收敛的复杂性概念,而且非常精确。我们将从理论上说明为什么我们的技术如此精确。最后,我们将讨论未来的工作如何探索在泛化边界中纳入分布假设的新方法(例如以未标记数据的形式),并探索其他工具来推导边界,可能是通过修改统一收敛或开发完全新的工具。

成为VIP会员查看完整内容
81

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【哈佛大学】深度学习理论实证探究
专知会员服务
42+阅读 · 2021年11月1日
专知会员服务
22+阅读 · 2021年10月6日
专知会员服务
104+阅读 · 2021年7月17日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
177+阅读 · 2020年6月3日
【新书册】贝叶斯神经网络,41页pdf
专知
27+阅读 · 2020年6月3日
从动力学角度看优化算法:自适应学习率算法
PaperWeekly
8+阅读 · 2018年12月27日
2017年深度学习优化算法最新综述
计算机视觉战队
6+阅读 · 2017年12月18日
2017深度学习NLP进展与趋势
云栖社区
7+阅读 · 2017年12月17日
GFlowNet Foundations
Arxiv
9+阅读 · 2021年11月17日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
5+阅读 · 2020年3月26日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
12+阅读 · 2018年1月12日
VIP会员
相关论文
GFlowNet Foundations
Arxiv
9+阅读 · 2021年11月17日
Arxiv
14+阅读 · 2020年12月17日
Arxiv
19+阅读 · 2020年7月21日
Arxiv
5+阅读 · 2020年3月26日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
12+阅读 · 2018年1月12日
微信扫码咨询专知VIP会员