深度神经网络(Deep Neural Networks, DNNs)在众多任务上取得了显著成功,然而我们对其学习机制的理解仍然有限。这些模型能够学习高维任务,而从统计学角度来看,这类任务通常因“维度灾难”(curse of dimensionality)而难以求解。这一表面上的悖论暗示:可学习的数据必然存在某种潜在的结构。那么,这种结构的本质是什么?神经网络如何对其进行编码与利用?它又如何以定量方式影响性能——例如,随着训练样本数量的增加,泛化能力如何提升?本论文围绕这些核心问题,系统研究了局部性(locality)组合性(compositionality)在数据、任务及深度学习表征中的作用机制。 我们首先分析了在无限宽度极限下的卷积神经网络(Convolutional Neural Networks, CNNs),在这一极限下,学习动力学被极大简化并可进行解析刻画。借助统计物理与学习理论的工具,我们刻画了模型的泛化能力,并证明:当目标函数具有局部性时,网络能够自适应其空间尺度,从而突破维度灾难的限制

接着,我们研究了更复杂的层级结构——其特征以层次化方式组合,即大尺度元素由小尺度子特征构成。我们使用简单的概率上下文无关文法(Probabilistic Context-Free Grammars, PCFGs)来建模这类数据。这类树状图模型常用于描述语言与图像等层次性数据。在该框架下,我们研究了基于扩散的生成模型(Diffusion-based Generative Models)如何通过组装从样本中学习到的特征来生成新数据。这一组合理论预测了生成过程中的相变现象(phase transition),并在图像与语言模态中得到了实证验证,为自然数据的组合结构提供了理论支持。进一步地,我们证明:学习这类文法的样本复杂度随数据维度多项式级增长,从而揭示了扩散模型通过学习层次化组合机制以避免维度灾难的理论依据。这些结果为生成模型如何学习泛化、乃至如何获得创造力提供了理论基础。

最后,我们将分析视角从输入空间中的数据结构转向参数空间中的任务结构。在这一部分,我们探讨了一种新的任务可组合性形式,即任务与技能本身可以进行组合。实证结果表明:在大规模预训练模型的权重空间中,不同方向对应着功能空间中局部化、语义特定的任务区域;这种模块化结构使得**任务算术(task arithmetic)模型编辑(model editing)**在大规模上成为可能。 关键词:深度学习;泛化;缩放定律;数据结构;局部性;组合性;概率图模型;卷积网络;扩散模型。

成为VIP会员查看完整内容
1

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。
微信扫码咨询专知VIP会员