干货|【西瓜书】周志华《机器学习》学习笔记与习题探讨（二）②

会员服务 ·

干货|【西瓜书】周志华《机器学习》学习笔记与习题探讨（二）②

2017 年 9 月 25 日 机器学习研究会

西瓜书系列笔记

干货|Coursera吴恩达《神经网络与深度学习》课程笔记（1）-- 深度学习概述

干货|Coursera吴恩达《神经网络与深度学习》课程笔记（2）-- 神经网络基础之逻辑回归

性能度量

首先重温一遍理想。

理想：通过评估学习器的泛化误差，选出泛化误差最小的学习器。

那么，上一节通过留出法、交叉验证法和自助法得到了可以表现泛化误差的测试误差后，如何选出表现最佳的学习器呢？这就需要对泛化能力有一个评价标准。简单举个例子就是：得到了值，带入标准之中，选出最终结果。

【性能度量】：衡量泛化能力的评价标准。

但实际上的性能度量，还要反映任务需求。在对比不同学习器的能力时，使用不同的性能度量往往会导致不同的评判结果。什么样的学习器是好的，不仅取决于算法和数据，还决定于任务需求。

预测任务中，评估学习器f的性能，需要将学习器的预测结果f(x)同真实标记y进行比较。

所以现在主要讨论的是监督学习。

如图是监督学习的性能度量，其中回归任务的性能度量一般采用均方误差，而分类任务的性能度量多种多样。

1、回归任务的性能度量——均方误差：

公式如下：

可知，均方误差是m个离散样本的方差的平均数。

但对于数据分布Ɗ和概率密度p(·)，均方误差的计算公式如下：

可知，此时样本可以看做非离散样本而是连续样本。

性能度量方法：通常，均方误差大的模型性能差，均方误差小的模型性能好。

均方误差反应的是回归任务模型判断正确与否的能力。

2、分类任务的性能度量1——错误率与精度

错误率：分类错误的样本占样本总数的比例。

精度：分类正确的样本占样本总数的比例。

错误率是m个离散样本的指数函数和的平均数。

精度与错误率相同，也是m个离散样本的指数函数和的平均数，但两者的指数函数不同。

但对于数据分布Ɗ和概率密度p(·)，错误率和精度的计算公式如下：

可知，此时样本可以看做非离散样本而是连续样本。

性能度量方法：通常，错误率低精度高的模型性能好，错误率高精度低的模型性能差。

错误率与精度反应的是分类任务模型判断正确与否的能力。

3、分类任务的性能度量2——查准率、查全率与F1

当需要反应的不是判断正确与否的能力，而是正例、反例查出的准确率时，就不能用错误率和精度作为判断分类任务模型的性能度量了。

判断得是否正确，在二分类任务中有四种表现形式，还拿西瓜🍉举例：

好西瓜判断成好西瓜，判断正确①；好西瓜判断成坏西瓜，判断错误②；

坏西瓜判断成好西瓜，判断错误③；坏西瓜判断成坏西瓜，判断正确④；

其中，①和④都是判断正确，②和③都是判断错误。错误率和精度是①和④、②和③的综合判断，只有判断正确与否的概念，没有正例反例的区别。

所以要引入查准率（P）、查全率（R）的概念。

下表是二分类结果混淆矩阵，将判断结果分为四个类别，真正例（TP）、假正例（FP）、假反例（FN）、真反例（TN）。

查准率：【真正例样本数】与【预测结果是正例的样本数】的比值。

查全率：【真正例样本数】与【真实情况是正例的样本数】的比值。

查准率是在讲，挑出的好瓜里头，有多少真的是好瓜。所以当希望选出的好瓜比例尽可能高的时候，查准率就要高。（当瓜农面对零售时，会逐个判断哪一个是好瓜，然后对每一个顾客说：“保校保甜，不甜不要钱。”如果瓜农的查准率不高，他要赔死了。）

查全率是在讲，挑出来真的好瓜，占总共好瓜个数的多少。所以当希望尽可能多的把好瓜选出来的时候，查全率就要高。（当瓜农面对批发时，就不要求每个都甜了，尽可能多的把好瓜都挑出来就行了，不然就浪费了好瓜。）

一般来说，查准率高时，查全率偏低；查全率高时，查准率偏低。通常只在一些简单任务中，查准率和查全率都偏高。

性能度量的方法：1、直接观察数值；2、建立P-R图。

直接观察数值已经介绍过了，现在介绍P-R图。

P-R图，即以查全率做横轴，查准率做纵轴的平面示意图，通过P-R曲线，来综合判断模型的性能。

但值得一提的是，同一个模型，在同一个正例判断标准下，得到的查准率和查全率只有一个，也就是说，在图中，只有一个点，而不是一条曲线。

那么要得到一条曲线，就需要不同的正例判断标准。

在判断西瓜好坏的时候，我们不是单纯的将西瓜分成好坏两堆，左边一堆好瓜，右边一堆坏瓜。

而是对预测结果进行排序，排在前面的是学习器认为最可能是正例的样本，排在最后面的是最不可能的样本。

现在按顺序，依次将每一个样本划分为正例进行预测，就得到了多组查准率和查全率的值了。

多组值就是多个点，样本充足的时候，可以连成一条平滑的曲线，即为P-R曲线。

得到P-R图后，如何判断哪个学习器性能更佳？

当曲线没有交叉的时候：外侧曲线的学习器性能优于内侧；

当曲线有交叉的时候：

第一种方法是比较曲线下面积，但值不太容易估算；

第二种方法是比较两条曲线的平衡点，平衡点是“查准率=查全率”时的取值，在图中表示为曲线和对角线的交点。平衡点在外侧的曲线的学习器性能优于内侧。

第三种方法是F1度量和Fβ度量。F1是基于查准率与查全率的调和平均定义的，Fβ则是加权调和平均。

通过比较两条曲线的F1，来判断哪个学习器性能更好。

但在不同的应用中，对查准率和查全率的重视程度不同，需要根据其重要性，进行加权处理，故而有了Fβ度量。β是查全率对查准率的相对重要性。

β>1时：查全率有更大影响；β=1时：影响相同，退化成F1度量；β<1时：查准率有更大影响。

以上是一个二分类混淆矩阵的查准率和查全率判断。

但实际情况中，一个分类学习器往往并不只有一个二分类混淆矩阵，当多次训练/测试或是在多个数据集上进行训练/测试的时候，就会出现多个二分类混淆矩阵。当需要综合考虑估计算法的“全局性能”时，有两种解决办法。

宏：在n个混淆矩阵中分别计算出查准率查全率，再计算均值，就得到“宏查准率”、“宏查全率”和“宏F1”。

微：先将n个混淆矩阵的对应元素进行平均，再计算查准率查全率和F1，就得到“微查准率”、“微查全率”和“微F1”。

4、分类任务的性能度量3——ROC与AUC

与P-R图相同，ROC图通过对测试样本设置不同的阈值并与预测值比较，划分出正例和反例。再计算出真正例率和假正例率。P-R图逐个将样本作为正例，ROC图逐次与阈值进行比较后划分正例。本质上，都是将测试样本进行排序。

真正例率（TPR）：【真正例样本数】与【真实情况是正例的样本数】的比值。（查全率）

假正例率（FPR）：【假正例样本数】与【真实情况是反例的样本数】的比值。

ROC图全名“受试者工作特征”，以真正例率为纵轴，以假正例率为横轴。

转自：机器学习算法与自然语言处理

完整内容请点击“阅读原文”

登录查看更多

相关内容

性能度量

关注 0

【2020新书】监督机器学习，156页pdf，剑桥大学出版社

专知会员服务

154+阅读 · 2020年6月27日

《周志华机器学习详细公式推导版》完整PDF首发！1.1w+标星开源项目pumpkin-book

专知会员服务

286+阅读 · 2020年5月27日

【纽约大学】最新《离散数学》笔记，451页pdf

专知会员服务

131+阅读 · 2020年5月26日

贝叶斯分类器以及与互信息分类器—国科大UCAS胡包钢教授《信息论与机器学习》课程第七讲

专知会员服务

69+阅读 · 2020年3月30日

普渡大学2020硬核课程《鲁棒机器学习理论》课件与笔记，38讲173页pdf

专知会员服务

180+阅读 · 2020年3月28日

二值分类熵界分析—国科大UCAS胡包钢教授《信息论与机器学习》课程第五讲

专知会员服务

52+阅读 · 2020年3月16日

【UMD开放书】机器学习课程书册，19章227页pdf，带你学习ML

专知会员服务

102+阅读 · 2019年12月9日

【干货】监督学习知识手册大全|维基百科书，附103页pdf下载

专知会员服务

69+阅读 · 2019年12月5日

【机器学习课程】机器学习中的常识性问题

专知会员服务

75+阅读 · 2019年12月2日

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

专知会员服务

211+阅读 · 2019年11月29日

赶紧收藏！西瓜书《机器学习》完整笔记来了

大数据技术

30+阅读 · 2019年8月24日

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

机器学习者都应该知道的五种损失函数！

数盟

5+阅读 · 2018年6月21日

已删除

将门创投

4+阅读 · 2018年6月12日

【干货】监督学习与无监督学习简介

专知

14+阅读 · 2018年4月4日

资源 | 史上最全机器学习笔记

AI100

9+阅读 · 2017年11月21日

推荐｜一份不错的机器学习笔记！

全球人工智能

22+阅读 · 2017年11月20日

干货|掌握机器学习数学基础之优化[1]（重点知识）

机器学习研究会

10+阅读 · 2017年11月19日

课程笔记|吴恩达Coursera机器学习 Week1 笔记-机器学习基础

机器学习研究会

4+阅读 · 2017年10月18日

机器学习（13）之最大熵模型详解

机器学习算法与Python学习

7+阅读 · 2017年8月24日

Prime Sample Attention in Object Detection

Arxiv

13+阅读 · 2019年4月9日

Manifold Approximation by Moving Least-Squares Projection (MMLS)

Arxiv

4+阅读 · 2019年3月7日

Logically-Constrained Reinforcement Learning

Arxiv

3+阅读 · 2018年12月6日

Meta-Learning with Latent Embedding Optimization

Arxiv

6+阅读 · 2018年7月16日

Controllable Generative Adversarial Network

Arxiv

5+阅读 · 2018年5月1日

Neural-Brane: Neural Bayesian Personalized Ranking for Attributed Network Embedding

Arxiv

4+阅读 · 2018年4月23日

Towards Human-Machine Cooperation: Self-supervised Sample Mining for Object Detection

Arxiv

6+阅读 · 2018年3月27日

A Big Data Analysis Framework Using Apache Spark and Deep Learning

Arxiv

3+阅读 · 2017年11月25日

Convolutional Sequence to Sequence Learning

Arxiv

4+阅读 · 2017年7月25日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

VIP会员