泛化性的危机！LeCun发文质疑：测试集和训练集永远没关系

会员服务 ·

泛化性的危机！LeCun发文质疑：测试集和训练集永远没关系

2021 年 10 月 31 日 极市平台

↑ 点击蓝字关注极市平台

来源丨新智元

编辑丨极市平台

极市导读

长久以来一个观点就是在测试集上表现更好的模型，泛化性一定更好，但事实真是这样吗？LeCun团队最近发了一篇论文，用实验证明了在高维空间下，测试集和训练集没有关系，模型做的一直只有外推没有内插，也就是说训练集下的模型和测试集表现没关系！如此一来，刷榜岂不是毫无意义？>>加入极市CV技术交流群，走在计算机视觉的最前沿

内插（interpolation）和外推（extrapolation）是机器学习、函数近似（function approximation）中两个重要的概念。

在机器学习中，当一个测试样本的输入处于训练集输入范围时，模型预测过程称为「内插」，而落在范围外时，称为「外推」。

一直以来深度学习的研究都依赖于两个概念：

最先进的算法之所以工作得这么好，是因为它们能够正确地内插训练数据；
在任务和数据集中只有内插，而没有外推。

但图灵奖得主Yann LeCun团队在arxiv挂了一篇论文公开质疑这两个概念是错误的！

他们在论文中表示，从理论上和经验上来说，无论是合成数据还是真实数据，几乎可以肯定的是无论数据流形（data manifold）的基本本征维数（intrinstic dimension）如何，内插都不会出现在高维空间（>100）中。

本征维度即在降维或者压缩数据过程中，为了让你的数据特征最大程度的保持，你最低限度需要保留哪些features，它同时也告诉了我们可以把数据压缩到什么样的程度，所以你需要了解哪些 feature 对你的数据集影响是最大的。

考虑到当前计算能力可以承载的实际数据量，新观察到的样本极不可能位于该数据集的convex hull中。因此，他们得出了两个结论：

目前使用和研究的模型基本都是外推的了；
鉴于这些模型所实现的超越人类的性能，外推机制也不一定非要避免，但这也不是泛化性能的指标。

文中研究的第一阶段主要包括理解环境维度（即数据所在空间的维度）的作用，还包括基本数据流形内在维度（即数据最小表示所需的变量数量）的作用，以及包含所有数据流形的最小仿射子空间的维数。

可能有人认为像图像这样的数据可能位于低维流形上，因此从直觉和经验上认为无论高维环境空间如何，内插都会发生。但这种直觉会产生误导，事实上，即使在具有一维流形的极端情况下，底层流形维度也不会变化。

在描述新样本处于内插区域的概率演变时，上图给出了在对数尺度上看到的不断增加的数据集大小，以及基于对500000次试验的蒙特卡罗估计的各种环境空间维度（d），左侧图为从高斯密度N(0, Id)中采样数据，中间图从具有1的本征维数的非线性连续流形采样数据，右图从高斯密度恒定维数4的仿射子空间中采样数据，而环境维数增加。

从这些数字可以清楚地看出，为了保持内插区域的恒定概率，不管潜在的内在流形维度训练集的大小必须随d呈指数增长，其中d是包含整个数据流形的最低维仿射子空间的维数。

在所有情况下，该数据集的本征维度均为1，流形是连续的、非线性的、分段光滑的，对应于单纯形的遍历。

因此可以得出结论，为了增加处于内插区域的概率，应该控制d, 而不是控制流形基础维度和环境空间维度。

在研究像素空间中的测试集外推时，研究人员首先研究了MNIST、CIFAR和Imagenet序列集中处于插值状态的测试集的比例。

为了掌握数据维度的影响，使用从两种策略获得的不同数量的维度来计算该比例。第一种策略只从图像的中心保留一定数量的维度，它的优点是保留流形几何体，同时只考虑有限的维数；第二种策略对图像进行平滑和子采样，它的优点是能够保留流形的整体几何体，同时删除高频结构（图像细节）并压缩较少维数的信息。

在这两种情况下都看到，尽管自然图像具有数据流形几何结构，但相对于数据维度d，在内插区域中查找样本还是非常困难。

在降维空间中研究测试集外推时，一组实验使用非线性或线性降维技术来可视化高维数据集。为了明确地了解所用的降维技术是否保留了内插或外推信息时，研究人员创建了一个数据，该数据由d=8,12的d维超立方体的2d顶点组成。

这些数据集具有特定性，即任何样本相对于其他样本都处于外推状态。并且使用8种不同的常用降维技术对这些顶点进行二维表示。可以观察到降维方法会丢失内插/外推信息，并导致明显偏向插值的视觉误解。

内插和外推提供了一种关于给定数据集的新样本位置的直观几何特征，这些术语通常被用作几何代理来预测模型在看不见的样本上的性能。从以往的经验来看似乎已经下了定论，即模型的泛化性能取决于模型的插值方式。这篇文章通过实验证明了这个错误观念。

并且研究人员特别反对使用内插和外推作为泛化性能的指标，从现有的理论结果和彻底的实验中证明，为了保持新样本的插值，数据集大小应该相对于数据维度呈指数增长。简而言之，模型在训练集内的行为几乎不会影响该模型的泛化性能，因为新样本几乎肯定位于该凸包（convex）之外。

无论是考虑原始数据空间还是嵌入，这一观察结果都是成立的。所以研究人员认为，这些观察为构建更适合的内插和外推几何定义打开了大门，这些定义与泛化性能相一致，特别是在高维数据的情况下

参考资料：

https://arxiv.org/abs/2110.09485

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载～

极市干货

项目/比赛：珠港澳人工智能算法大赛｜算法打榜

算法trick ：目标检测比赛中的tricks集锦｜从39个kaggle竞赛中总结出来的图像分割的Tips和Tricks

技术综述：一文弄懂各种loss function ｜工业图像异常检测最新研究总结（2019-2020）

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

相关内容

流形

关注 3

图灵奖获得者Yann LeCun：最新《自主人工智能之路》报告，附70页ppt

专知会员服务

62+阅读 · 2022年2月26日

【斯坦福博士论文】深度生成模型的评估，126页pdf

专知会员服务

35+阅读 · 2021年7月19日

【ICML2021】量化策略再思考，数据压缩新技巧

专知会员服务

15+阅读 · 2021年5月12日

【深度学习中的隐式正则化】从矩阵和张量分解中得到的教训，141页ppt

专知会员服务

58+阅读 · 2021年4月5日

最新《机器学习数学基础》书册，109页pdf

专知会员服务

80+阅读 · 2021年2月7日

【Alma Mate博士论文】深度架构持续学习，附150页pdf与Slides

专知会员服务

46+阅读 · 2020年11月18日

【ICML2020】学习支持外推的表示学习，Learning Representations that Support Extrapolation

专知会员服务

26+阅读 · 2020年7月14日

【卡内基梅隆大学-CMU】机器学习中的公平性，Learning Fair Representations

专知会员服务

38+阅读 · 2020年2月29日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

【干货】监督学习知识手册大全|维基百科书，附103页pdf下载

专知会员服务

69+阅读 · 2019年12月5日

人工智能，「抛弃」真实数据集？

新智元

1+阅读 · 2022年4月6日

人工智能，“抛弃”真实数据集？

学术头条

1+阅读 · 2022年3月29日

Yann LeCun最新发声：自监督+世界模型，让 AI 像人类与一样学习与推理

THU数据派

0+阅读 · 2022年3月4日

怼完OpenAI，LeCun回应：我认为意识只是一种错觉

机器之心

0+阅读 · 2022年2月23日

神经网络为何越大越好？这篇NeurIPS论文证明：鲁棒性是泛化的基础

新智元

2+阅读 · 2022年2月22日

论文被拒，LeCun喊冤？我虽大肆宣传，但不影响「双盲审」公正

极市平台

0+阅读 · 2021年10月11日

【干货】Yann Lecun自监督学习指南（附114页Slides全文）

GAN生成式对抗网络

94+阅读 · 2018年12月19日

Yann Lecun自监督学习指南（附114页Slides全文下载）

专知

53+阅读 · 2018年12月19日

【干货】一文读懂什么是变分自编码器

专知

12+阅读 · 2018年2月11日

手把手教你用LDA特征选择

AI研习社

12+阅读 · 2017年8月21日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于迁移学习的脑机接口特征提取和预测方法研究

国家自然科学基金

2+阅读 · 2013年12月31日

神经网络随机学习算法的泛化性研究

国家自然科学基金

2+阅读 · 2013年12月31日

文本自动分类中样本重要性模型及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

非参数变换模型的统计推断

国家自然科学基金

0+阅读 · 2012年12月31日

逼近和恢复的原子范数正则化方法

国家自然科学基金

0+阅读 · 2012年12月31日

高维数据特征选择的稳定性研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于NTF和HHT的空间碎片天基高光谱探测与识别方法

国家自然科学基金

0+阅读 · 2012年12月31日

基于张量分解和非参量密度建模的偏微分方程目标跟踪研究

国家自然科学基金

0+阅读 · 2009年12月31日

MEDFORD: A human and machine readable metadata markup language

Arxiv

0+阅读 · 2022年4月20日

AutoField: Automating Feature Selection in Deep Recommender Systems

Arxiv

0+阅读 · 2022年4月19日

$μ$AFL: Non-intrusive Feedback-driven Fuzzing for Microcontroller Firmware

Arxiv

0+阅读 · 2022年4月19日

A Survey on Deep Reinforcement Learning for Data Processing and Analytics

Arxiv

24+阅读 · 2022年2月4日

A Survey on Multi-Task Learning

Arxiv

31+阅读 · 2021年3月29日

Generalizing to Unseen Domains: A Survey on Domain Generalization

Arxiv

30+阅读 · 2021年3月10日

Model Complexity of Deep Learning: A Survey

Arxiv

32+阅读 · 2021年3月8日

Graph Enhanced Representation Learning for News Recommendation

Arxiv

24+阅读 · 2020年3月31日

Deep Learning for Learning Graph Representations

Arxiv

35+阅读 · 2020年1月2日

Distributed Machine Learning on Mobile Devices: A Survey

Arxiv

37+阅读 · 2019年9月18日

VIP会员