VIP内容

本文研究了深度学习理论中一个基本的开放挑战: 为什么深度网络在过度参数化、非正则化和拟合训练数据为零误差的情况下仍能很好地泛化? 在论文的第一部分,我们将实证研究如何通过随机梯度下降训练深度网络隐式控制网络容量。随后,为了说明这如何导致更好的泛化,我们将推导基于数据的一致收敛的泛化边界,并改进参数计数的依赖性。由于其简单性和通用性,一致收敛实际上已经成为深度学习文献中使用最广泛的工具。鉴于它的流行,在这篇论文中,我们也将后退一步,确定一致收敛的基本极限,作为解释泛化的工具。特别地,我们将证明在一些过度参数化的设置的例子中,任何一致收敛界将只提供一个空洞的泛化界。考虑到这一点,在论文的最后一部分,我们将改变航向,并引入一种经验技术来估计使用未标记数据的泛化。我们的技术不依赖于任何基于一致收敛的复杂性概念,而且非常精确。我们将从理论上说明为什么我们的技术如此精确。最后,我们将讨论未来的工作如何探索在泛化边界中纳入分布假设的新方法(例如以未标记数据的形式),并探索其他工具来推导边界,可能是通过修改统一收敛或开发完全新的工具。

成为VIP会员查看完整内容
0
26
Top