我们描述了深度学习在数学分析领域的进展。这个研究领域包含一系列的研究问题,这些问题在经典的学习理论框架内是无法回答的。这些问题: 超参数化神经网络出色的泛化能力,深度在深度架构中的作用,维数灾难的明显缺失,尽管问题是非凸性的惊人成功的优化性能,理解什么特征被学习,为什么深层架构在物理问题上表现得非常好,以及架构的哪些优良方面以何种方式影响学习任务的行为。我们将概述对这些问题提供部分答案的现代方法。对于所选的方法,我们将更详细地描述主要思想。
https://www.zhuanzhi.ai/paper/53cef6ebf707cbf754318f25fd35f88f
引言
深度学习无疑已经成为现在最好的机器学习技术。这一主导地位是通过一系列在不同应用领域取得的压倒性成功而确立的。也许深度学习最著名的应用,当然也是这些技术最先发展到最先进水平的应用之一是图像分类[LBBH98, KSH12, SLJ+15, HZRS16]。在这一领域,深度学习是目前唯一被认真考虑的方法。深度学习分类器的能力如此强大,以至于它们在图像标注任务上常常胜过人类[HZRS15]。
第二个著名的应用领域是训练基于深度学习的代理玩棋盘游戏或电脑游戏,如雅达利游戏[MKS+13]。在这种情况下,可能最突出的成就是开发了一种算法,在围棋游戏中击败了人类最好的棋手[SHM+16, SSS+17]——由于围棋的极端复杂性,这在以前是不可想象的壮举。此外,即使是在不完全信息的多人游戏中,基于深度学习的代理如今也超过了世界级的人类团队[BBC+19, VBC+19]。除了玩游戏,深度学习也在自然科学领域带来了令人印象深刻的突破。例如,它被用于药物的开发[MSL+15],分子动力学[FHH+17],或在高能物理[BSW14]。最近科学应用领域最令人震惊的突破之一是基于深度学习的蛋白质折叠行为预测器的开发[SEJ+20]。这种预测器是第一个与基于实验室的方法的准确性相匹配的方法。
最后,在包括理解、总结或生成文本等子任务的自然语言处理领域中,基于深度学习的研究取得了令人印象深刻的进展。这里,我们参考[YHPC18]进行概述。最近脱颖而出的一种技术是基于所谓的transformer神经网络[BCB15, VSP+17]。这种网络结构催生了令人印象深刻的GPT-3模型[BMR+20],该模型不仅可以生成连贯且引人注目的文本,还可以生成代码,例如,根据用户用简单英语输入的一些指令来设计网页布局。transformer 神经网络也成功地应用于符号数学领域[SGHK18, LC19]。
在本文中,我们将介绍并讨论上述成功故事的数学基础。更准确地说,我们的目标是概述数学分析深度学习这一新兴领域。准确地描述这一领域,一个必要的准备步骤是加强我们对“深度学习”一词的定义。在本文中,我们将从以下狭义上使用这个术语:深度学习是指使用基于梯度的方法训练深度神经网络的技术。这个狭义的定义有助于使本文更加简洁。然而,我们想强调的是,我们并不以任何方式声称这是深度学习的最佳或正确定义。
在确定了深度学习的定义后,关于上述数学分析深度学习的新兴领域出现了三个问题:在多大程度上需要数学理论?这真的是一个新的领域吗?这一领域研究的问题有哪些?我们首先解释对上述工具进行理论分析的必要性。从科学的角度来看,用数学来研究深度学习的主要原因是单纯的好奇心。正如我们将在这篇文章中看到的,许多实际观察到的现象并没有从理论上解释。此外,理论见解和全面理论的发展往往是发展新方法和改进方法的动力。具有这种效果的数学理论的突出例子是流体力学理论,它对飞机或汽车的设计是无价的资产,以及影响和塑造所有现代数字通信的信息理论。用Vapnik的话来说:“没有什么比一个好的理论更实用”,[Vap13,前言]。除了有趣和实用之外,理论洞察力也可能是必要的。事实上,在机器学习的许多应用中,如医疗诊断、自动驾驶汽车和机器人技术,深度学习方法必须具有相当程度的控制和可预测性。此外,在银行或保险等服务领域,技术应该是可控的,以确保做出公平和可解释的决策。
接下来,让我们来谈谈深度学习的数学分析领域是一个新兴领域的说法。事实上,在上述深度学习的定义下,该技术主要有两个组成部分:深度神经网络和基于梯度的优化。第一个人工神经元已经在1943年[MP43]被引入。这个神经元没有被训练,而是被用来解释一个生物神经元。这种人工神经元的第一个多层网络也可以在[Ros58]中找到。从那时起,各种神经网络体系结构被开发出来。我们将在下面的部分中详细讨论这些体系结构。第二个因素是基于梯度的优化,由于神经网络的基于图的结构,可以有效地计算目标函数相对于神经网络参数的梯度,这使得基于梯度的优化成为可能。这已经通过不同的方式观察到,见[Kel60, Dre62, Lin70, RHW86]。同样,这些技术将在接下来的部分中讨论。从那时起,技术得到了改进和推广。其余的手稿都是在回顾这些方法,我们将保持对文献的简短讨论。相反,我们从不同的角度回顾了深度学习的历史:[LBH15, Sch15, GBC16, HH19]。
鉴于深度神经网络的两大主要组成部分已经存在很长时间,人们可以预期一个全面的数学理论已经发展出来,它描述了为什么以及什么时候基于深度学习的方法会表现良好,什么时候会失败。统计学习理论[AB99, Vap99, CS02, BBL03, Vap13]描述了一般学习方法的性能的多个方面,特别是深度学习。我们将在下面的第1.2小节中在深度学习的背景下回顾这一理论。因此,我们将重点关注我们认为在机器学习社区中众所周知的经典、深度学习相关的结果。尽管如此,对这些结果的选择肯定是主观的。我们会发现,现有的经典理论过于一般化,无法充分解释深度学习的性能。在此背景下,我们将确定以下在经典学习理论框架内似乎难以回答的问题: 为什么经过训练的深度神经网络没有对训练数据过拟合,尽管该体系结构有着巨大参数? 与浅层架构相比,深层架构有什么优势?为什么这些方法似乎没有遭受维数灾难咒?为什么优化程序经常成功地找到好的解决方案,尽管面临非凸,非线性,经常非光滑的问题?体系结构的哪些方面影响相关模型的性能,以及如何影响?深度架构学习数据的哪些特征?为什么这些方法在自然科学中表现得和专业的数字工具一样好,甚至更好?