深度学习中的泛化神秘在于:为什么经过梯度下降(GD)训练的过参数化神经网络能够很好地对真实数据集进行泛化,即使它们能够拟合具有可比性的随机数据集?此外,在符合训练数据的所有解决方案中,GD如何找到一个泛化良好的解决方案(当存在这样一个泛化良好的解决方案时)?
我们认为,这两个问题的答案都在于训练过程中不同例子的梯度之间的交互作用。直观地说,如果每个示例的梯度是良好对齐的,也就是说,如果它们是一致的,那么可以期望GD(在算法上)是稳定的,因此可以很好地泛化。我们用一个易于计算和解释的一致性度量来形式化这个论点,并表明对于几个常见的视觉网络,度量在真实和随机数据集上具有非常不同的值。该理论还解释了深度学习中的一些其他现象,比如为什么一些例子比其他例子更早被可靠地学习,为什么早停止有用,为什么可以从嘈杂的标签中学习。由于该理论提供了一个因果解释,解释了GD如何在存在的情况下找到一个很好的泛化解决方案,它激发了对GD的一系列简单的修改,减少了记忆,提高了泛化。
在深度学习中,泛化是一个极其广泛的现象,因此,它需要一个同样普遍的解释。最后,我们对解决这一问题的其他途径进行了综述,并认为所建议的方法是在此基础上最可行的方法。