深度学习在经验上非常有影响力,但在理论理解上滞后。神经网络在结构和训练算法上都比传统的机器学习模型复杂得多,所以传统的理论直觉可能不适用。本文旨在从理论上更好地理解深度学习中的泛化问题。在论文的第一部分,我们研究了所有数据都有标签的监督设置下的泛化。我们的主要工具是泛化界:通过推导和研究泛化界,我们可以深入了解深度学习中影响泛化的各种因素。
首先,我们比较了正则化神经网络和神经正切核(NTK)的统计特性。通过建立神经网络常见的正则化训练损失与基于输出边际的泛化界之间的联系,我们证明了正则化神经网络比NTK解具有更好的泛化效果。其次,我们基于边缘的新概念——全层边缘,推导出神经网络的新泛化边界。与传统的基于规范的泛化测度相比,这些边界更依赖于数据,更具有深度,并突出了数据依赖的Lipschitzness在泛化中的重要作用。我们以经验证明,这些边界对于激励新的训练目标和理解和解密现有的正则化策略是有用的。
在论文的第二部分,我们把我们的焦点转向涉及未标记数据的设置。在这些情况下,很难证明为什么许多算法可以工作,尽管它们有广泛的经验成功。
首先,我们研究了视觉设置,并提出了一个理论框架来理解最近的半监督学习和领域适应的自训练算法。通过利用自然图像的现实结构属性,我们表明,在未标记数据上的自训练导致可证明的准确性增益。此外,我们的理论框架和相关假设可以用来表明,自监督对比学习在线性探针评价下获得了可证明的良好特征。最后,我们研究了为什么预训练语言模型可以帮助处理NLP设置中的下游任务。我们通过潜在的潜在变量生成模型来考虑预训练和下游任务相关的设置。我们表明,当这个生成模型是HMM或记忆增强HMM时,预训练允许解决下游任务的可证明保证。