在这篇论文中,我们对深度学习理论进行了实证研究。我们将深度学习系统视为黑盒,有我们可以控制的输入(训练样本、架构、模型大小、优化器等)和我们可以观察的输出(神经网络函数、其测试误差、其参数等)。我们的目标是描述输入的选择如何影响输出。作为一个经验理论,我们的目标是定量地描述这种行为,如果不是严格地证明它。我们希望理论尽可能普适化,应用于广泛的深度学习设置,包括那些在实践中。
为此,我们提出了三个经验理论。(1) Deep Double Descent证明了深度学习的输入和输出之间的关系并不总是以自然的方式单调:存在一个可预测的“关键机制”,例如,对更多数据的训练实际上会损害性能,但模型在这个机制之外表现良好。(2) 深度Bootstrap框架表明,要理解输出网络的泛化,只要理解我们的输入选择的优化方面就足够了。(3) 分布泛化更深入地研究了输出网络,发现经过训练的模型实际上“泛化”的范围比我们通常预期的要广得多。我们引入了一种新的泛化捕捉这些行为。
我们的研究结果揭示了学习理论中已有的主题(特别是泛化、过度参数化、插值化),也揭示了需要新的框架来捕捉的新现象。在某些情况下,我们对深度学习的研究揭示了一些现象,即使是非深度学习方法也适用。因此,我们希望这篇论文的结果将最终编织成一个一般性的深度学习理论。
Preetum Nakkiran 个人主页:https://preetum.nakkiran.org/