泛化是现代机器学习的一个核心挑战。 经典理论能够解释小规模监督模型,但在面对参数过多的神经网络的意外行为,以及诸如强化学习和大规模预训练等其他范式时则显得力不从心。这些发展表明,我们需要新的、更适合现代机器学习的理论和实证工具。
我们首先从监督学习开始,在此背景下我们引入了一种称为泛化分歧等式(Generalization Disagreement Equality, GDE)的经验现象,它使得仅使用无标签数据就能精确估计深度神经网络的泛化误差。在这一发现的基础上,我们提出了一个以特征学习为核心的理论框架——即神经网络从原始数据中学习提取有意义表征的过程。该框架不仅解释了 GDE 的数学基础,还成功预测了新实验的结果,从而更完整地揭示了深度网络的学习与泛化方式。
第二部分通过探索的视角研究了深度强化学习(RL)算法的泛化特性。我们建立了探索与泛化之间的重要关系,并提出了一种新算法,能够显著提升智能体在未见环境中的泛化能力。我们还展示了基于大语言模型(LLM)的 RL 智能体可以在测试时被训练以执行高效的探索,并解决新的决策问题。 第三部分将这些见解扩展到无监督预训练。我们证明,数据子集的学习损失曲线可以通过一种**缩放律(scaling law)**精确建模,并且这一规律可以进一步分解为不同类型的不确定性。这些不确定性可作为信号,在训练过程中动态调整数据组成,从而提高学习效率,并且只需极小的计算开销。
在论文的最后部分,我们提出:参数过多的网络所展现出的反常性质,以及经典信息论在解释现代机器学习时的更广泛局限,源于真实学习器具有计算约束。为此,我们引入了epiplexity,即时间受限观察者所能访问的结构信息的度量。Epiplexity 解决了经典理论未能解释的悖论,并且可以通过学习曲线和缩放律得到一个实用的估计器,同时在从元胞自动机到语言和视觉的多个领域得到了验证。这些结果表明,计算限制不是边缘性的,而是机器学习现象的根本属性,提供了一个关于泛化、数据选择与表征学习的统一框架。它们还建立了机器学习与算法信息论、复杂性理论以及密码学之间的新联系。