本论文研究了深度学习的显著成功。它提出了一种观点:与其开发黑箱式的泛化界限,更有成效的理解现代深度学习成功的方法,是通过神经网络在特定领域中灵活性与结构之间的精巧互动。在这些领域中,我们可以通过以下两个方面来理解现代深度学习: (1) 适应数据中的结构,(2) 利用其结构(如架构、预训练初始化等)进行适应。我们通过理论和实证相结合的方式建立这一观点。
我们首先审视传统的学习理论工具:泛化界限。具体而言,我们研究了算法稳定性作为解释梯度下降在过参数化神经网络中表现的可能框架。我们提供了实证证据,表明均匀稳定性并未以足够强度出现,因此无法解释神经网络的泛化表现。
接着,与其关注如何驯服深度学习的灵活性,我们将深度学习的灵活性重新定义为在结构足够时能够进行有效适应的强大能力。论文的剩余部分,我们仔细研究了三个关键场景——在图像数据上的卷积神经网络、在基本算法任务上的简单 Transformer,以及在自然语言数据上的预训练语言模型——这些场景展示了神经网络在数据中适应结构和利用其结构快速灵活地进行适应的卓越能力。通过这三种场景,回溯了过去六年训练方法和范式的演变。
与我们最初所讨论的黑箱式泛化方法所呈现的悲观图景不同,我们通过这些场景提倡一种更加机械化且细致入微的理解方式,探讨神经网络在特定领域中灵活性与结构之间的互动关系。