尽管深度学习广受欢迎并且取得了成功,但我们对于神经网络何时、如何以及为何能够泛化到未见过的示例的理解仍然有限。由于学习可以被视为从数据中提取信息,我们正式研究神经网络在训练过程中捕获的信息。具体来说,我们首先从信息论的角度来看待在存在噪声标签的情况下的学习,并推导出一种限制权重中标签噪声信息的学习算法。然后,我们定义了一个概念,即单个样本对深度网络训练提供的唯一信息,这为我们理解神经网络在处理非典型、模糊或属于代表性不足的子群体的示例时的行为提供了一些启示。我们通过推导出非空泛化差距界限,将示例的信息量与泛化能力联系起来。最后,通过研究知识蒸馏,我们强调了数据和标签复杂性在泛化中的重要作用。总的来说,我们的发现有助于更深入地理解神经网络泛化的底层机制。
在过去的十年里,深度学习在广泛的应用领域取得了显著的成功,包括计算机视觉、自然语言处理、语音识别、机器人技术和生成建模。使用随机梯度下降变体训练的大型神经网络展示出卓越的泛化能力,尽管它们具有足够的容量来记忆其训练集[Zhang et al., 2017]。虽然我们在理解深度学习方面取得了一些进步,但对于神经网络何时、为何以及如何泛化的全面理解仍然难以捉摸。