泛化性的危机！LeCun发文质疑：测试集和训练集永远没关系

会员服务 ·

泛化性的危机！LeCun发文质疑：测试集和训练集永远没关系

2021 年 10 月 27 日 新智元

新智元报道

来源：arXiv

编辑：LRS

【新智元导读】长久以来一个观点就是在测试集上表现更好的模型，泛化性一定更好，但事实真是这样吗？LeCun团队最近发了一篇论文，用实验证明了在高维空间下，测试集和训练集没有关系，模型做的一直只有外推没有内插，也就是说训练集下的模型和测试集表现没关系！如此一来，刷榜岂不是毫无意义？

内插（interpolation）和外推（extrapolation）是机器学习、函数近似（function approximation）中两个重要的概念。

在机器学习中，当一个测试样本的输入处于训练集输入范围时，模型预测过程称为「内插」，而落在范围外时，称为「外推」。

一直以来深度学习的研究都依赖于两个概念：

最先进的算法之所以工作得这么好，是因为它们能够正确地内插训练数据；
在任务和数据集中只有内插，而没有外推。

但图灵奖得主Yann LeCun团队在arxiv挂了一篇论文公开质疑这两个概念是错误的！

他们在论文中表示，从理论上和经验上来说，无论是合成数据还是真实数据，几乎可以肯定的是无论数据流形（data manifold）的基本本征维数（intrinstic dimension）如何，内插都不会出现在高维空间（>100）中。

本征维度即在降维或者压缩数据过程中，为了让你的数据特征最大程度的保持，你最低限度需要保留哪些features，它同时也告诉了我们可以把数据压缩到什么样的程度，所以你需要了解哪些 feature 对你的数据集影响是最大的。

考虑到当前计算能力可以承载的实际数据量，新观察到的样本极不可能位于该数据集的convex hull中。因此，他们得出了两个结论：

目前使用和研究的模型基本都是外推的了；
鉴于这些模型所实现的超越人类的性能，外推机制也不一定非要避免，但这也不是泛化性能的指标。

文中研究的第一阶段主要包括理解环境维度（即数据所在空间的维度）的作用，还包括基本数据流形内在维度（即数据最小表示所需的变量数量）的作用，以及包含所有数据流形的最小仿射子空间的维数。

可能有人认为像图像这样的数据可能位于低维流形上，因此从直觉和经验上认为无论高维环境空间如何，内插都会发生。但这种直觉会产生误导，事实上，即使在具有一维流形的极端情况下，底层流形维度也不会变化。

在描述新样本处于内插区域的概率演变时，上图给出了在对数尺度上看到的不断增加的数据集大小，以及基于对500000次试验的蒙特卡罗估计的各种环境空间维度（d），左侧图为从高斯密度N(0, Id)中采样数据，中间图从具有1的本征维数的非线性连续流形采样数据，右图从高斯密度恒定维数4的仿射子空间中采样数据，而环境维数增加。

从这些数字可以清楚地看出，为了保持内插区域的恒定概率，不管潜在的内在流形维度训练集的大小必须随d呈指数增长，其中d是包含整个数据流形的最低维仿射子空间的维数。