范式大学|机器学习:1 亿的数据量怎么选模型,10 亿呢?

2017 年 9 月 19 日 机器学习研究会

小明是数据科学家实习生,最近他遇到一个问题:

 

当他完成小数据的建模时,一个简单的线性 SVM 就能够取得很好的效果。但是当数据量增大到 1 个亿,哪怕他用尽吃奶的力气调参,效果也上不去了。

 

小明的导师知道了情况,他和小明解释说:“出现这个情况,是因为模型的 VC 维不够大。”



什么是VC维?



VC 维的概念十分久远,最早是由名字很难读的Vladimir Vapnik 和 AlexeyChervonenk 发明的,那时候是 1971 年。

 

在 VC 维的发展历史中,有一个得意弟子叫 SVM,在 1993 年由Corinna Cortes 和 Vapnik 提出,并带来了SVM 和 Neural Network 长达 12 年的激烈竞争。后面深度学习在 2005 年兴起,关于VC 维的概念就越来越少人关注了。

 

但 VC 维其实是机器学习的基础,因为它解释了为什么某机器学习方法是可学习的?为什么会有过拟合?以及我们拿什么来衡量机器学习的模型复杂度?机器学习模型需要多少数据量等等。

 

我们尝试给 VC 维一个简单的表述:将N个点进行分类,如分成两类,那么可以有2^N种分法,即可以理解成有2^N个学习问题。若存在一个假设H,能准确无误地将2^N种问题进行分类。那么这些点的数量N,就是H的VC维。 

 

举个例子:

 

在一个2D空间中,我们考虑一个线性的分类模型,也就是一条直线。现在有一个由三个不共线点组成的数据集,考虑其所有正负例分配方案一共是2^3=8种,如下图所示。可以看到,对于任意一种分配方案,线性的分类模型都可以完美地将正负例分开,因此该模型能有效分类三个点的数据集。



那么包含四个点的数据集呢?读者可以动手画一画,给定四个固定位置的数据点,一定存在某个正负例分配方案,仅借助一条直线是没办法将正负例完全分开的。更进一步,容易证明,不管这四个点的位置怎么摆,总是可以把某些点定为正,某些点定为负,然后一条直线不能分开他们。

 

因此,该线性模型在2D平面上可以有效分类3个点的数据集,而对于任意4个点的数据集则无能为力。

 

所以我们定义:该模型在2D平面上的VC维就是3。



完整内容请点击“阅读原文”


转自:第四范式

登录查看更多
0

相关内容

在机器学习中,支持向量机(SVM,也称为支持向量网络)是带有相关学习算法的监督学习模型,该算法分析用于分类和回归分析的数据。支持向量机(SVM)算法是一种流行的机器学习工具,可为分类和回归问题提供解决方案。给定一组训练示例,每个训练示例都标记为属于两个类别中的一个或另一个,则SVM训练算法会构建一个模型,该模型将新示例分配给一个类别或另一个类别,使其成为非概率二进制线性分类器(尽管方法存在诸如Platt缩放的问题,以便在概率分类设置中使用SVM)。SVM模型是将示例表示为空间中的点,并进行了映射,以使各个类别的示例被尽可能宽的明显间隙分开。然后,将新示例映射到相同的空间,并根据它们落入的间隙的侧面来预测属于一个类别。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
166+阅读 · 2020年5月27日
最新《机器学习理论初探》概述
专知会员服务
42+阅读 · 2020年5月19日
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
89+阅读 · 2020年4月7日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
126+阅读 · 2020年3月15日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
27+阅读 · 2020年1月16日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
【收藏】支持向量机原理详解+案例+代码!【点击阅读原文下载】
机器学习算法与Python学习
10+阅读 · 2018年9月13日
机器学习者都应该知道的五种损失函数!
数盟
5+阅读 · 2018年6月21日
机器学习不能做什么?
引力空间站
5+阅读 · 2018年3月28日
线性回归:简单线性回归详解
专知
11+阅读 · 2018年3月10日
机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数
机器学习算法与Python学习
3+阅读 · 2017年9月23日
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
机器学习(15)之支持向量机原理(一)线性支持向量机
机器学习算法与Python学习
6+阅读 · 2017年9月1日
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Panoptic Feature Pyramid Networks
Arxiv
3+阅读 · 2019年1月8日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
相关VIP内容
【哈佛大学】机器学习的黑盒解释性,52页ppt
专知会员服务
166+阅读 · 2020年5月27日
最新《机器学习理论初探》概述
专知会员服务
42+阅读 · 2020年5月19日
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
89+阅读 · 2020年4月7日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
126+阅读 · 2020年3月15日
模型压缩究竟在做什么?我们真的需要模型压缩么?
专知会员服务
27+阅读 · 2020年1月16日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
相关资讯
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
【收藏】支持向量机原理详解+案例+代码!【点击阅读原文下载】
机器学习算法与Python学习
10+阅读 · 2018年9月13日
机器学习者都应该知道的五种损失函数!
数盟
5+阅读 · 2018年6月21日
机器学习不能做什么?
引力空间站
5+阅读 · 2018年3月28日
线性回归:简单线性回归详解
专知
11+阅读 · 2018年3月10日
机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数
机器学习算法与Python学习
3+阅读 · 2017年9月23日
入坑机器学习,这10个知识点你要了解!
THU数据派
5+阅读 · 2017年9月15日
机器学习(15)之支持向量机原理(一)线性支持向量机
机器学习算法与Python学习
6+阅读 · 2017年9月1日
从点到线:逻辑回归到条件随机场
夕小瑶的卖萌屋
15+阅读 · 2017年7月22日
机器学习算法比较
我爱机器学习
4+阅读 · 2016年12月11日
Top
微信扫码咨询专知VIP会员