DNN盛行的当下，老旧的核（kernel）方法或能打开神经网络的魔盒

会员服务 ·

DNN盛行的当下，老旧的核（kernel）方法或能打开神经网络的魔盒

2021 年 10 月 26 日 PaperWeekly

©作者 | 杜伟

来源 | 机器之心

重新思考「老旧的」核（kernel）方法，或许可以破解深度学习的奥秘。

在机器学习（ML）的世界，人工神经网络（ANN）越来越大的演化趋势以及超大规模网络取得的成功正在造成概念性难题。

2012 年，Hinton 及其学生 Alex Krizhevsky 设计的 AlexNet 赢得年度图像识别竞赛，它的参数量大约为 6000 万。在训练中对这些参数的微调使得 AlexNet 能够识别以前从未见过的图像。2014 年，牛津大学计算机视觉组与 DeepMind 的研究者设计的具有 1.3 亿参数的 VGG 摘得了 ILSVRC2014 比赛分类项目的第二名。直到现在，一些人工神经网络的参数量已经达到了数十亿。

这些大规模网络在图像分类、语音识别以及语言翻译等任务上取得了令人瞩目的成功，并开始主导机器学习和人工智能领域。然而，这些网络依然高深莫测，它们强大性能背后的原因也令人难以捉摸。

与此同时，大量的研究者正在证明：这些强大网络的理想化版本在数学上等同于更旧、更简单的 ML 模型——核机（kernel machine）。如果这种等同性可以扩展至理想化神经网络之外，则或许可以解释实用性人工神经网络如何取得令人惊奇的结果。

人工神经网络的神秘性部分表现在它们似乎可以颠覆传统机器学习理论，即极度依赖从统计学和概率论观点中学习。按照一般的思维方式，包括神经网络（NN）在内的机器学习模型经过训练来学习简单数据中的模式，对新数据进行预测。这些机器学习模型在具有合适的参数量时表现最好。

如果参数太少，则学得的模型太简单，并且无法捕获训练数据的所有细微差别。如果参数太多，则模型变得极度复杂，对训练数据中的模式进行细粒度学习，当被要求分类新数据时则无法实现泛化。这种现象被称为过拟合。加州大学圣迭戈分校机器学习研究者 Mikhail Belkin 教授表示，「数据过拟合与拟合不够之间需要达到一种平衡，这种中间状态是我们想要的。」

Mikhail Belkin

大家都说，像 VGG 这样的深度神经网络（DNN）具有太多的参数，并且应该过拟合。但事实是，这些深度神经网络并没有。相反地，这些网络向新数据的泛化得很好，直到最近，没有人知道原因是什么。

研究者也做了很多尝试，比如希伯来大学已故（今年 8 月离世）计算机科学家和神经系统科学家 Naftali Tishby 认为，DNN 首先拟合训练数据，然后丢弃不相关信息（在信息瓶颈中），这种做法有助于它们实现泛化。对其他研究者则认为，这种情况并没有出现在所有类型的深度神经网络中，存在着争议。

现在，核机和理想化神经网络在数学上的等同性为人们理解这些过参数化的网络为何以及如何得到（或收敛至）它们的解提供了线索。核机算法通过将数据映射到极高维来发现数据中的模式。通过研究理想化神经网络在数学上易处理的等同核机，研究者正在学习具有极高复杂度的深度网络为什么在训练过程中能够收敛至对未见过数据泛化良好的解。

Mikhail Belkin 表示，「神经网络有几分像鲁布 · 戈德堡机械（Rube Goldberg machine）。你不清楚它的哪部分真正地重要。我认为应将它们简化成核方法，这种方法不需要那么高的复杂度，有时使我们可以将正在运行的机器分离出来。」

追溯至 19 世纪的「核方法」

核方法或核机，依赖于一个历史悠久的数学领域，可以追溯至 19 世纪。当时，德国数学家卡尔 · 弗里德里希 · 高斯提出了以其姓名命名的高斯核（Gaussian kernel），将一个变量 x 映射到一个与贝尔曲线（bell curve）形状类似的函数。当 20 世纪早期英国数学家 James Mercer 将核用于解决积分方程时，核的现代化应用开始兴起。到了 1960 年代，机器学习领域开始使用核来解决简单分类方法无法搞定的数据。

理解核方法首先需要了解一类机器学习算法——线性分类器（linear classifier）。比如说，使用两个维度的数据可以对猫和狗进行分类，这意味着需要两个特征（即在 x 轴上描述的鼻子的大小以及在 y 轴上描述的耳朵的大小）来分辨出它们。我们在 xy 平面上描述标记数据，其中猫属于一个聚类，狗属于另一个。

接着，我们可以使用标记数据来训练一个线性分类器，以找到将猫和狗聚类分开的一条直线。该过程中包含了寻找表征这条直线的方程系数。现在，给定新的未标记数据，则很容易就可以通过观察目标落在直线的哪边来分类是猫还是狗。

但是，各品种猫和狗的鼻子和耳朵大小的实际数据当然无法通过一个线性分类器来分割。在这种情况下，当数据呈现线性不可分时，则会被转换或映射到更高维的空间。做到这点的一种简单方法是将两个特征的值相乘以创建第三个特征。也许鼻子和耳朵大小之间存在的一些关联可以区分出猫和狗。

一般来说，观察更高维空间中的数据更容易找到线性分离器（linear separator），当处于三维以及以上空间时表现为超平面（hyperplane）。当这个超平面被映射回更低维时，它将采用带有曲线和摇摆的非线性函数的形式，将原始的更低维的数据分离成两个聚类。

但是，当我们处理真实数据时，常常在计算上效率不高，有时甚至不可能在高维中找到超平面的系数。核机却并非如此。

支持向量机的出现将核机推向了舞台中心

核机有能力做到以下两点。第一点，核机可以将低维数据集中的每个点映射到更高维中的点。这一超平面的维数可以是无限的，取决于映射本身，由此造成一个问题：找到分离超平面的稀疏包括计算每对高维特征的内积（inner product），当数据被映射到无线维时就变得很困难。

二维和三维空间中的线性分类器。Samuel Velasco/Quanta Magazine

第二点是：给定两个二维的数据点，核机使用一个核函数来分离出一个等于相应更高维特征的内积的数字。关键是，核机算法可以使用这种技巧来找到超平面的系数，并且实际上不需要踏入高维空间。

加州大学伯克利分校名誉教授 Bernhard Boser 表示，「核方法最棒的一点是所有的计算发生在低维空间中，而不用可能无限维的空间。」

20 世纪 80 年代晚期和 90 年代早期，就职于美国新泽西州霍姆德尔贝尔实验室的 Boser 及其同事 Isabelle Guyon 和 Vladimir Vapnik 发明了一种核机——支持向量机（SVM）。自二十世纪 60 年代代以来，各种类型的核机在机器学习领域留下了它们的足迹，SVM 的出现使它们登上了舞台中心，并已被证明极其强大。

到了 2000 年代早期，SVM 广泛应用于生物信息学（比如找出不同蛋白质序列的相似性和预测蛋白质的功能）、机器视觉和手写识别等多个领域。

从左至右依次为 Bernhard Boser、Isabelle Guyon 和 Vladimir Vapnik。

此后，SVM 继续统治机器学习领域，直到 2012 年 AlexNet 的出现，深度神经网络才逐渐走向成熟。随着机器学习社区转投人工神经网络，SVM 开始陷入困境，但它们以及其他核机仍然是强大的模型，可以教我们很多东西。例如，核机能做的不仅仅是使用核技巧来找到分离的超平面。

谷歌研究院大脑团队研究科学家 Chiyuan Zhang 表示，「如果你有一个强大的核，则可以将数据映射到一个无限维、极其强大的核空间。你总能在这个强大的隐空间中找到一个线性分离器来分离数据，并且存在无数种可能的解。」核理论不仅仅使你可以选择任意的线性分离器，而且通过限制用于搜索的解的空间找到可能最佳的线性分离器。这类似于减少模型中的参数量来防止其出现过拟合，该过程被称为正则化（regularization）。Chiyuan Zhang 想知道深度神经网络是否会做类似的事情。

深度神经网络由多层人工神经元组成，包括一个输入层、一个输出层和至少一个夹在输入与输出层之间的隐藏层。隐藏层越多，网络就越深。网络的参数表征了这些神经元之间连接强度。比如，训练一个用于图像识别的网络包括重复地像它展示以前分类的图像并确定其参数值，从而帮助它正确地特征化这些图像。一旦经过训练，人工神经网络表征了一个将输入（一张图像）转换成输出（类别标签）的模型。

2017 年，Chiyuan Zhang 及其同事对 AlexNet 和 VGG 等网络进行了一系列实证测试，以观察用于训练它们的算法是否以某种方式有效地减少了可调参数的数量，从而产生一种隐式正则化。换句话说，训练机制是否导致这些网络无法过拟合。

该团队发现结果并非如此。使用经过巧妙操作的数据集，他们发现 AlexNet 和其他此类人工神经网络的确出现了过拟合但无法泛化。但是，使用相同算法训练的相同网络无法过拟合，当给定未更改的数据时，泛化得很好。因此，这种隐式正则化不是最终的答案。他们的发现表明「特征化深度神经网络中的泛化需要更好的解释」。

无限的神经元

与此同时，研究表明，更宽的神经网络在泛化性能上与较窄的网络一样好或相对更好。这意味着或许可以采用物理学中的策略来理解人工神经网络，对此，谷歌研究院大脑团队研究科学家 Yasaman Bahri 表示，「研究极限状态有时可以简化问题」。为了应对这类情况，物理学家常常通过考虑极端情况来简化问题。例如，当系统中的粒子数区域无穷大时，会发生什么呢？在这些极限情况下，统计学影响变得更容易处理。从数学上讲，如果层宽 ——单层中的神经元数量是无限的，神经网络会发生什么呢？

1994 年，现为多伦多大学名誉教授的 Radford Neal 提出了这个关于具有单个隐藏层的网络的确切问题。他表示，如果一个网络的权重被设置或者被初始化，并具有某些统计学特性，则在初始化时这个网络在数学上等同于一个众所周知的核函数——高斯过程（Gaussian process）。二十多年后的 2017 年，包括 Yasaman Bahri 在内的两个研究小组表明，具有多个隐藏层的理想化无线宽深度神经网络也呈现这种属性。

这个一个惊人的暗示。通常来说，即使一个深度网络在接受训练之后，也无法使用解析数学表达式来对未见过的数据进行预测。你只需要运行这个深度网络，观察它「说」了什么—— 就像一个黑匣子一样。但在理想化的场景中，网络在初始化相当于一个高斯过程。你可以扔掉神经网络，只训练核机，因为你有数学表达式。

Yasaman Bahri 表示，「一旦你将它映射到一个高斯过程，则可以解析计算预测应该是什么。」这已经是一个里程碑式的结果，但并没有在数学上描述实践中使用的最常见训练形式期间会发生什么。在这种设置下，尚不清楚该解如何能够泛化得这样好。

梯度下降和神经正切核

部分谜团集中在如何训练深度神经网络上，其中涉及一种梯度下降（gradient descent）的算法。「下降」一词表示这样一种事实，即训练期间，网络穿越了一个复杂、高维并遍布丘陵和山谷的景观，其中这个景观中的每个位置都表征了网络对给定参数值集合的误差。最终，一旦参数得到适当地调整，则人工神经网络达到一个被称为全局最小值的区域，这意味着它尽可能接近准确地分类训练数据。训练一个网络本质上是优化问题，即寻找全局最小值，训练后的网络表征一个将输入映射到输出的几乎最优函数。这个一个难以分析的复杂过程。

西雅图华盛顿大学机器学习专家 Simon Du 表示，「没有现有理论能够保证这种情况：如果你使用梯度下降等一些广泛使用的算法，人工神经网络可以收敛至全局最小值。」到 2018 年底，我们开始明白这样说的原因了。

同样地，正如重大科学进步经常发生的那样，根据对无限宽网络的数学分析以及它们与更易理解的核机的关系，很多研究团队同时得到了一个可能的答案。在 NeurIPS 2018 会议上，瑞士洛桑联邦理工学院的博士生 Arthur Jacot 展示了他们的研究成果。

Arthur Jacot

虽然他们的研究在细节和框架上不同，但本质上依然是无限宽的深度神经网络，其权重在初始化时考虑了一些统计学的特性，因此在初始化和整个训练过程中都完全等同于核。关于权重的一个核心假设是：它们在训练期间各自的变化很小，尽管无限多微小变化的影响依然显著。

鉴于这种假设，Arthur Jacot 及其同事表明，无限宽的深度神经网络往往等同于一个在训练期间从不变化的核。核甚至不依赖训练数据，核函数仅取决于神经网络的架构，如深度和连接类型。该团队根据核的几何属性将他们的工作命名为了神经正切核（neural tangent kernel）。

Arthur Jacot 表示，「我们知道，至少在一些情况下，神经网络可以像核方法一样运行。这是试图比较这些方法以理解它们的异同的第一步。」

打开神经网络魔盒的钥匙

这个结果解释了为什么深度神经网络，至少在这个理想的情况下，可以收敛到一个解。当我们在参数空间中查看人工神经网络时，也就是说从参数和复杂的损失情况来看，这种收敛性很难在数学上证明。但是，由于理想化的深度网络相当于一个核机，我们可以使用训练数据来训练深度网络或核机，并且每个深度网络或核机最终将找到一个将输入转换为输出的近似最优函数。

在训练期间，由无限宽神经网络表示的函数演化与由核机表示的函数演化相匹配。在函数空间中，神经网络及其等价的核机都在某个超维空间中表现出一个简单的碗状景观。使用梯度下降算法很容易到达碗的底部，即全局最小值。

但是，并不是每个人都认为核和神经网络之间的这种等价性适用于实际的神经网络，这些神经网络具有有限的宽度，并且其参数在训练过程中可能会发生巨大变化。Chiyuan Zhang 认为有一些点需要联系起来。

Belkin 认为，即使核方法是旧的理论，但研究者对它的理解还是不够的。Belkin 的团队已经通过经验证明，核方法不会过度拟合，并且对测试数据泛化能力也不错，此外，实现这种性能还不需要正则化，这类似于神经网络，与传统的学习理论相反。Belkin 表示，「如果我真的了解了核方法，那么我认为这真的给了我们一把打开神经网络魔盒的钥匙。」

研究人员不仅对核有更坚实的数学理解，可将其用作理解神经网络的类似物，而且从经验上讲，它们比神经网络更容易使用。核并不复杂，它们不需要随机初始化参数，而且它们的性能更具可复制性。研究人员已经开始调查现实网络和核之间的联系，相信他们对核的理解必将更加深刻。

Belkin 认为，即使核方法是旧的理论，它们仍然没有被完全理解。他表示：「如果我们建立了绝对的、完全的等价，那么我认为它将会改变整个游戏」。

原文链接：https://www.quantamagazine.org/a-new-link-to-an-old-model-could-crack-the-mystery-of-deep-learning-20211011/