范式大学｜机器学习：1 亿的数据量怎么选模型，10 亿呢？

会员服务 ·

范式大学｜机器学习：1 亿的数据量怎么选模型，10 亿呢？

2017 年 9 月 19 日 机器学习研究会

小明是数据科学家实习生，最近他遇到一个问题：

当他完成小数据的建模时，一个简单的线性 SVM 就能够取得很好的效果。但是当数据量增大到 1 个亿，哪怕他用尽吃奶的力气调参，效果也上不去了。

小明的导师知道了情况，他和小明解释说：“出现这个情况，是因为模型的 VC 维不够大。”

什么是VC维？

VC 维的概念十分久远，最早是由名字很难读的Vladimir Vapnik 和 AlexeyChervonenk 发明的，那时候是 1971 年。

在 VC 维的发展历史中，有一个得意弟子叫 SVM，在 1993 年由Corinna Cortes 和 Vapnik 提出，并带来了SVM 和 Neural Network 长达 12 年的激烈竞争。后面深度学习在 2005 年兴起，关于VC 维的概念就越来越少人关注了。

但 VC 维其实是机器学习的基础，因为它解释了为什么某机器学习方法是可学习的？为什么会有过拟合？以及我们拿什么来衡量机器学习的模型复杂度？机器学习模型需要多少数据量等等。

我们尝试给 VC 维一个简单的表述：将N个点进行分类，如分成两类，那么可以有2^N种分法，即可以理解成有2^N个学习问题。若存在一个假设H，能准确无误地将2^N种问题进行分类。那么这些点的数量N，就是H的VC维。

举个例子：

在一个2D空间中，我们考虑一个线性的分类模型，也就是一条直线。现在有一个由三个不共线点组成的数据集，考虑其所有正负例分配方案一共是2^3=8种，如下图所示。可以看到，对于任意一种分配方案，线性的分类模型都可以完美地将正负例分开，因此该模型能有效分类三个点的数据集。

那么包含四个点的数据集呢？读者可以动手画一画，给定四个固定位置的数据点，一定存在某个正负例分配方案，仅借助一条直线是没办法将正负例完全分开的。更进一步，容易证明，不管这四个点的位置怎么摆，总是可以把某些点定为正，某些点定为负，然后一条直线不能分开他们。

因此，该线性模型在2D平面上可以有效分类3个点的数据集，而对于任意4个点的数据集则无能为力。

所以我们定义：该模型在2D平面上的VC维就是3。

完整内容请点击“阅读原文”

转自：第四范式

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

【斯坦福大学博士论文】机器学习中的凸优化问题,108页pdf

专知会员服务

162+阅读 · 2020年6月14日

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

专知会员服务

112+阅读 · 2020年6月13日

【哈佛大学】机器学习的黑盒解释性，52页ppt

专知会员服务

172+阅读 · 2020年5月27日

最新《机器学习理论初探》概述

专知会员服务

48+阅读 · 2020年5月19日

卷积神经网络的概述论文:分析、应用和展望，21页pdf

专知会员服务

91+阅读 · 2020年4月7日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

130+阅读 · 2020年3月15日

【纽约大学】贝叶斯深度学习和泛化性的概率观点，附27页PDF下载

专知会员服务

84+阅读 · 2020年2月25日

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【机器学习课程】Google机器学习速成课程

专知会员服务

169+阅读 · 2019年12月2日

大数据时代小样本如何学习？看这篇最新《小样本学习方法综述》论文

专知会员服务

145+阅读 · 2019年10月18日

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

【收藏】支持向量机原理详解+案例+代码！【点击阅读原文下载】

机器学习算法与Python学习

10+阅读 · 2018年9月13日

机器学习者都应该知道的五种损失函数！

数盟

5+阅读 · 2018年6月21日

机器学习不能做什么？

引力空间站

5+阅读 · 2018年3月28日

线性回归：简单线性回归详解

专知

12+阅读 · 2018年3月10日

机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数

机器学习算法与Python学习

3+阅读 · 2017年9月23日

入坑机器学习，这10个知识点你要了解！

THU数据派

5+阅读 · 2017年9月15日

机器学习（15）之支持向量机原理(一)线性支持向量机

机器学习算法与Python学习

6+阅读 · 2017年9月1日

从点到线：逻辑回归到条件随机场

夕小瑶的卖萌屋

15+阅读 · 2017年7月22日

机器学习算法比较

我爱机器学习

4+阅读 · 2016年12月11日

Compositional Generalization in Image Captioning

Arxiv

3+阅读 · 2019年9月16日

VoteNet: A Deep Learning Label Fusion Method for Multi-Atlas Segmentation

Arxiv

5+阅读 · 2019年4月18日

Learning to Estimate Pose and Shape of Hand-Held Objects from RGB Images

Arxiv

5+阅读 · 2019年3月8日

Panoptic Feature Pyramid Networks

Arxiv

3+阅读 · 2019年1月8日

Multi-class Classification without Multi-class Labels

Arxiv

4+阅读 · 2019年1月2日

A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation

Arxiv

3+阅读 · 2018年10月2日

Asymmetric Similarity Loss Function to Balance Precision and Recall in Highly Unbalanced Deep Medical Image Segmentation

Arxiv

5+阅读 · 2018年6月29日

Relational recurrent neural networks

Arxiv

8+阅读 · 2018年6月28日

Bayesian Convolutional Neural Networks

Arxiv

19+阅读 · 2018年6月27日

An application of cascaded 3D fully convolutional networks for medical image segmentation

Arxiv

9+阅读 · 2018年3月14日

VIP会员

范式大学｜机器学习：1 亿的数据量怎么选模型，10 亿呢？

相关内容

知识荟萃

更多