现代神经网络的成功归因于两个基本属性:表达能力和泛化能力。前者指模型适应多种数据集的能力,后者使网络能够从训练样本中外推模式,并将其应用于以前未见过的数据。本论文解决了与这两个关键属性相关的一些挑战。过度参数化的网络能够适应任何数据集,并不总是表明它们实际的表达能力。这是本论文第一部分的研究对象,我们将探讨输入信息在通过深层架构时如何丢失,我们提出了一个易于实施的可能解决方案,即引入适当的缩放因子和残差连接。论文的第二部分关注泛化。尽管现代神经网络过度参数化,但为何能够很好地泛化到新数据而不过拟合,这是一个目前在研究界受到广泛关注的开放问题。我们从信息论和PAC-贝叶斯的视角探索这一主题,提出了新的学习算法和泛化界限。
自从可编程计算机的首次构想以来,人们就对机器获得智能的可能性感到好奇(Lovelace,1842年)。目前,已经明确计算机可以高效地执行计算和任务,这些对于任何人来说几乎是无法解决的。然而,实现执行我们日常生活中的简单动作的算法,如识别物体或理解口语句子,呈现出更大的挑战,因为它需要以正式的方式表达我们的直觉和主观理解。事实上,早期尝试构建计算机,其世界知识直接由人类开发者以正式语言硬编码,到目前为止还未能取得重大成功:为了学习,机器必须“通过从原始数据中提取模式来获取[...]知识”(Goodfellow等人,2016年),这一能力被称为机器学习。神经网络已经显示出能够自主地从外部环境编码知识的能力。这背后的成功是反向传播算法的发展,该算法能够有效地训练能够学习自己表征的多层架构,而不依赖于人为设计的特征。事实上,现代神经网络被结构化为简单参数化函数的顺序组合,使不同层能够学习输入和输出之间日益复杂的关系。这种层次化架构使网络能够从输入中提取和组合不同类型的信息,从而导致更抽象和有用的特征的出现(LeCun等人,2015年)。对于绝大多数当前最先进的神经网络,模型参数远远超过了调整它们的训练样本数量。从数学角度来看,这转化为一个高度复杂的设置,为此找到严格的统计性能保证仍然是一个重大的开放问题(Zhang等人,2017年)。尽管如此,巨大的经验成功使得多层过参数化神经架构成为多个领域包括医学、电子邮件过滤、语音识别、计算机视觉和市场营销等在内的几个学习任务的标准首选(LeCun等人,2015年)。具有数百万参数的神经网络可以准确地逼近广泛的功能,这一属性被称为表达性(或表现力)。这通常是一个理想的品质,因为它允许网络学习复杂的模式并展示出极大的灵活性。然而,传统智慧认为,如果一个模型可以轻易地逼近任何函数,它很可能过拟合训练样本,并在面对新数据时表现不佳。从训练数据集中外推知识并有效应用于以前未见过的实例的能力被称为泛化。尽管过参数化,神经网络在几个任务中展示了令人印象深刻的泛化能力。当前缺乏对这一现象的理论理解,以及随后在提供先验统计性能保证方面的困难,导致了神经网络的泛化属性研究成为一个活跃的研究领域(Zhang等人,2017年,2021年)。这篇论文的主要焦点是分析过参数化神经网络的表达性和泛化属性。