机器学习著名定理之—No Free Lunch定理详解

2022 年 3 月 4 日 PaperWeekly

引言

谈到机器学习一个非常著名的定理，那就不得不提 No Free Lunch 定理了。该定理核心思想是没有一种通用的学习算法可以在各种任务中都有很好的表现，需要对具体问题进行具体的分析。从原理出发去理解 AI 算法可以能够对 AI 相关的问题有更深刻的认识，像这种基于严格数学证明推导出的结论，尤其值得重视。翻阅了大量的相关材料力求让该定理的证明过程更加完整（需要注意的是该定理核心证明步骤中用到了一个修改版本的马尔可夫不等式），相关的材料列在文末。

No Free Lunch 定理证明

定理 1（No Free Lunch）： 假定是一个在域的二分类任务中任意一个机器学习算法，其损失函数为损失。令是一个大小为的训练集，存在域中的分布，则有：

存在一个函数，且有。
对于子列，则概率不等式成立。

证明：

（1）令表示域中大小为的一个子集。主要的证明思路是只利用数据集一半的数据样本点并不能给出剩下一半数据点的信息。假定表示数据集到标签集合所有可能的函数集合，且表示的是函数集合的基数，其中，。对于中每一个函数假设，令是中的分布：

进而可知存在函数，在数据分布上则有。（2）主要证明的关键在于即对任意的学习算法有：

首先从中采样出个样本构造一个训练集，其中采样出的样本可以重复，进而可知有中可能的样本序列。令这些样本序列分别表示为。_

表示的是函数在样本序列中的数据集合，则有：

又因为

，所以则有：

现固定，令，，其中是剩余没有采样的样本数。对于每一个函数，有：

所以

对于给定的，因为是所有可能函数映射的基数，所以总有成对存在的有：

进而则有：

根据马尔可夫不等式的修改版可知，给定一个随机变量，给定一个常数，进而则有：

马尔可夫不等式为：

利用马尔可夫不等可知：

No Free Lunch和先验知识

训练一个分类器的时候经常会用到一些先验知识，那 No Free Lunch 定理与先验知识有什么关系呢？考虑一个 ERM（Empirical Risk Minimization）分类器，其所有分类映射组成了集合。这类映射集合缺乏先验知识，则根据 No Free Lunch 定理可知，给定一个学习算法，会在一些学习任务中学习失败，所以可以推知，该类学习算法不是 PAC（Probably Approximately Correct）学习的。

定义1（PAC）：如果一个学习算法集合是 PAC 学习的，存在一个计数函数。一个学习算法对于任意的，任意的在域中的分布和任意的打标函数，则有该类学习算法数，并存在一个学习算法，满足以下概率公式：

根据 PAC 学习的定义和 No Free Lunch 定理可知，则有如下推论：

推论 1：令是一个无限域集，是所有的函数集合，则不是 PAC 可学习的。

证明：该推论可以利用反证法来证明。假定是 PAC 可学习的。选取和。通过 PAC 的定义可知，一定存在学习算法，其数量为，对于任意在上生成的数据分布，如果对于一些函数，使得，并且当在采样出个样本的数据集合上，有：

然后由 No Free Lunch 定理可知，当，对于每一个学习算法，存在分布使得：

所以出现矛盾。

那要如何防止这种失败？通过使用对特定学习任务的先验知识，可以避免 No Free Lunch 定理所预见的风险，从而避免在学习该任务时那些导致失败的分布的出现，所以可知先验知识主要通过限制学习算法类的范围。

误差分解

令是一个映射，则可以误差可以由如下公式表示：

误差分解为两部分，一个是近似误差，另一个是估计误差。

近似误差：近似误差是一种归纳偏差，它不取决于训练样本集的大小，而是由所由训练出的分类器的映射所决定。增大映射的范围可以减小近似误差。在可实现性假设下，近似误差为零。然而，在不可知论的情况下，近似误差可能很大。
估计误差：近似误差和 ERM 预测值所获得的误差之间的差值。估计误差的产生是因为经验风险（即训练误差）只是对真实风险的估计，因此最小化经验风险的预测器只是最小化真实风险的预测器的估计。这种估计的质量取决于训练分类器的训练集大小以及复杂性。

由于目标是将总损失降至最低，因此就需要面临着一种权衡，称为偏差-复杂性权衡。一方面，分类器集合越大（模型的容量过大，自由度过高）会减少近似误差，但同时可能会增加估计误差，因为丰富的可能会导致过度拟合。

反之，一个非常小的集合（即模型容量不够大，或者没有涵盖到真实的目标函数）会减少估计误差，但可能会增加近似误差，或者换句话说，可能会导致拟合不足。No Lunch Theorem 定理指出，没有通用的学习算法，每个学习算法都必须被指定完成某项任务，并使用有关该任务的一些先验知识。

参考文献

[1] https://www.youtube.com/watch?v=DxaK8OSnxvE&list=UUaJUsUVO8sj71H5gCVgh7sw&index=41

[2] https://www.youtube.com/watch?v=wilz_c07ImI&list=UUaJUsUVO8sj71H5gCVgh7sw&index=40

[3] https://en.wikipedia.org/wiki/No_free_lunch_theorem

[4] https://ti.arc.nasa.gov/m/profile/dhw/papers/78.pdf

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

学习算法

关注 2

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

【经典书】概率图模型：原理与技术，1270页pdf

专知会员服务

135+阅读 · 2022年2月13日

【干货】机器学习知识体系思维导图，一图让你理解所有概念

专知会员服务

56+阅读 · 2021年7月14日

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

923页ppt！经典课《机器学习核方法》，附视频

专知会员服务

105+阅读 · 2021年3月1日

最新《时序数据分析》书稿，512页pdf

专知会员服务

114+阅读 · 2020年12月25日

阿姆斯特丹大学机器学习简明课程视频与课件UvA - Machine Learning 1

专知会员服务

24+阅读 · 2020年11月28日

【经典书】从算法到Z分数:计算机科学中的概率和统计建模，543页pdf

专知会员服务

76+阅读 · 2020年11月11日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

70+阅读 · 2020年3月2日

面试题：简单说说贝叶斯定理

七月在线实验室

12+阅读 · 2019年6月12日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

机器学习(30)之线性判别分析(LDA)原理详解

机器学习算法与Python学习

11+阅读 · 2017年12月6日

LibRec 每周算法：LDA主题模型

LibRec智能推荐

29+阅读 · 2017年12月4日

专栏 | 技术干货：一文详解LDA主题模型

机器之心

28+阅读 · 2017年12月1日

【直观详解】支持向量机SVM

机器学习研究会

18+阅读 · 2017年11月8日

机器学习(23)之GBDT详解

机器学习算法与Python学习

12+阅读 · 2017年10月25日

GAN的数学原理

算法与数学之美

16+阅读 · 2017年9月2日

【深度学习基础】1.监督学习和最优化

微信AI

0+阅读 · 2017年6月7日

高斯序列与过程的极值理论

国家自然科学基金

2+阅读 · 2015年12月31日

矩阵方程秩约束广义最佳逼近理论及应用

国家自然科学基金

1+阅读 · 2013年12月31日

Erdos-Sos猜想及几个相关的极值组合问题

国家自然科学基金

0+阅读 · 2012年12月31日

流形上的Bakry-Emery曲率，泛函不等式和热核分析

国家自然科学基金

0+阅读 · 2012年12月31日

非对称锥优化理论与内点算法及其应用研究

国家自然科学基金

1+阅读 · 2012年12月31日

多复变函数空间上的算子理论

国家自然科学基金

0+阅读 · 2012年12月31日

锥优化问题的光滑逼近精确罚理论与算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于先验知识的支持向量机的最优化模型与算法研究

国家自然科学基金

0+阅读 · 2011年12月31日

复形范畴中的Gorenstein同调维数

国家自然科学基金

0+阅读 · 2009年12月31日

p进表示的伽罗瓦上同调

国家自然科学基金

0+阅读 · 2008年12月31日

A sojourn-based approach to semi-Markov Reinforcement Learning

Arxiv

0+阅读 · 2022年4月20日

Functional Covering of Point Processes

Arxiv

0+阅读 · 2022年4月20日

Expert-Calibrated Learning for Online Optimization with Switching Costs

Arxiv

0+阅读 · 2022年4月18日

Homogeneity in the instrument-treatment association is not sufficient for the Wald estimand to equal the average causal effect for a binary instrument and a continuous exposure

Arxiv

0+阅读 · 2022年4月18日

Free gs-monoidal categories and free Markov categories

Arxiv

0+阅读 · 2022年4月17日

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

Arxiv

0+阅读 · 2022年4月17日

IoT Solutions with Multi-Sensor Fusion and Signal-Image Encoding for Secure Data Transfer and Decision Making

Arxiv

37+阅读 · 2021年6月2日

Attribute-Guided Adversarial Training for Robustness to Natural Perturbations

Arxiv

15+阅读 · 2020年12月3日

Optimization Models for Machine Learning: A Survey

Arxiv

18+阅读 · 2019年1月16日

Neural Architecture Search: A Survey

Arxiv

12+阅读 · 2018年9月5日

VIP会员