人工智能,尤其是机器学习的子领域,已经看到了向数据驱动的模型的范式转变,这些模型从数据中学习并适应。这在自然语言处理和计算机视觉等多个领域都带来了前所未有的进步,很大程度上归因于深度学习,一种特殊的机器学习模型。深度学习通过一系列的计算层从原始数据中学习相关特征,从而在某种程度上超越了传统方法。
本论文通过研究这些模型的结构与它们处理的数据中的固有结构之间的关系,探讨了深度学习的理论基础。我们特别提问:是什么驱动了深度学习算法的效能,并使它们击败了所谓的维度诅咒——即由于数据点与增加的维数呈指数级增加的需要而在高维中通常学习函数的困难?是它们利用数据结构来学习数据的相关表示的能力吗?不同的结构是如何利用不同的数据结构的?为了解答这些问题,我们提出数据的结构可以通过其不变性——即与手头的任务无关的方面来有效地表征。
我们的方法对深度学习采取了一种实证方法,将实验研究与物理启发的玩具模型相结合。这些简化的模型使我们能够研究和解释我们在深度学习系统中观察到的复杂行为,提供对它们内部工作的洞察,目标是弥合理论与实践之间的差距。具体地说,我们计算浅层全连接网络的严格泛化误差率,表明它们通过学习线性不变性(即对输入空间中无关的线性方向变得不敏感)能够表现良好。但是,我们表明这些网络结构在学习非线性不变性(如旋转不变性或输入的平滑变形的不变性)时可能表现不佳。这一结果说明,如果所选择的架构不适合某个任务,它可能会过度拟合,使得表示不被学习的核方法可能成为更好的选择。
然而,现代的架构,如卷积神经网络,特别适合学习真实数据中存在的非线性不变性。例如,在图像分类中,物体或特征的确切位置可能对于识别它并不重要。这一属性导致了对小的变形的不变性。我们的研究结果表明,对变形更为不变的神经网络往往性能更高,突显了利用这种不变性的重要性。