直观、形象、动态,一文了解无处不在的标准差

2020 年 1 月 24 日 机器之心

选自 Fahd Alhazmi's Blog

作者: Fahd Alhazmi
机器之心编译
参与:魔王、杜伟
本文将对标准差这一概念提供直观的视觉解释。


本文作者为纽约市立大学在读博士生 Fahd Alhazmi,专注于神经科学、人工智能和人类行为研究。

统计学中最核心的概念之一是:标准差及其与其他统计量(如方差和均值)之间的关系。入门课程中老师常告诉学生「记住公式就行」,但这并非解释概念的最佳方式。 本文将对标准差这一概念提供直观的视觉解释。

假设你有一个成绩单,在本案例中这即是现实测量(real-world measurements)。我们想将这些测量中的信息「压缩」为一组量,以便后续对比不同班级的成绩或不同年份的成绩等。鉴于认知能力有限,我们不想挨个查看分数,来找出平均分更高的班级。这时就需要总结数字,描述统计学就派上用场了。

总结数字的方式有两种:量化其相似性或差异(difference)。

  • 量化数字的相似性即「集中趋势量数」(measures of central tendency),包括平均数、中位数和众数;

  • 量化数字的差异即「差异量数」(measures of variability),包括方差和标准差。


标准差揭示一组数字中彼此之间的差异,以及数字与平均值之间的差异。

举例而言,假设你收集了一些学生分数(出于简洁性考虑,我们假设这些分数是总体)。


我们首先在简单的散点图中绘制这些数字:


绘制完成后,计算差异的第一步是找出这些数字的中心,即平均值。


视觉上,我们可以绘制一条线来表示平均分数。


接下来我们要计算每个点和平均值之间的距离,并对得到的数值求平方。 记住,我们的目标是计算数字之间的差异,以及数字与平均值之间的差异。 我们可以用 数学或视图 的方式完成该操作:

从上图中我们可以看到,「求平方」只不过是画了一个方框而已。这里有两点需要注意: 我们无法计算所有差异的总和。 因为一些差异是正值,一些是负值,求和会使正负抵消得到 0。为此,我们对差异取平方(稍后我会解释为什么取平方而不是其他运算,如取绝对值)。

现在,我们来计算差异平方的总和(即平方和):


通过计算平方和,我们高效计算出这些分数的总变异(即差异)。 理解变异(variability)与差异(difference)之间的关系是理解多个统计估计和推断检验的关键。 上图中平方和 67.5 表示,如果我们将所有方框堆在一个巨大的正方形中,则大正方形的面积等于 67.5 points^2,points 指分数的单位。任意测量集的总变异都是正方形的面积。

方差

现在我们得到了总变异(即大正方形的面积),但我们真正想要的是平均变异(mean variability)。要想求得平均变异,我们只需要用总面积除以方框的数量:


出于实用目的考虑,你或许想除以 N−1,而不是 N,这样你就可以尝试基于一个样本而不是总体来估计平均变异。但是,这里假设我们已经具备总体(total population)。 重点在于,你想计算所有小方框的均方值。 这就是「方差」,即平均变异,或者差异平方的平均值(mean squared difference)。

标准差

我们为什么不用方差来表示分数的差异呢?唯一的问题是,我们无法对比方差和原始分数,因为方差是「平方」值,即它是面积而非长度。其单位是 points^2,与原始分数的单位 points 不同。那么如何甩掉平方呢?开平方根啊!


最后,我们终于得到了标准差:变异的平方根,即 2.91points。

这就是标准差的核心理念。本文对标准差概念的基础直观解释可以帮助大家更容易地理解,为什么在处理 z 分数(z-score)、正态分布、标准误差和方差分析时要使用标准差的单位。

此外,如果你用标准差公式中的拟合线 Y 替代平均值,则你在处理的是基础回归项,如均方误差(不开根号的话)、均方根误差(开根号,但是和拟合线相关)。相关和回归公式均可使用不同量的平方和(或总变异区域)来写。分割平方和是理解机器学习中的泛化线性模型和偏差-方差权衡的关键概念。

简而言之:标准差无处不在。

绝对值的问题

你可能会疑惑,为什么对差异求平方而不是取绝对值呢。没有什么能够真正阻止你使用差异的平均绝对值。 平均绝对值给所有差异提供的是相同的权重,而差异平方为距离平均值较远的数字提供更多权重。 这或许是你想要的。但是,大部分数学理论利用差异平方(其原因不在本文讨论范围内,如可微分)。

不过,我会用一个容易理解的反例来回答这个问题。假设有两个均值相同的分数集合:x_1 和 x_2:


从这些数字中,你可以轻松观察到 x_1 的变异和数值分散性比 x_2 低。我们来计算两个集合差异的平均绝对值(二者的平均值都为 6):


哦,结果并不好!两个集合的变异值相同,尽管我们能够看到 x_1 的数字差异要比 x_2 低。现在,我们使用差异平方计算,得到:


在差异平方的作用下,我们得到了想要的结果:当数字越分散时,标准差越大。

原文链接: http://falhazmi.com/blog/a-visual-interpretation-of-the-standard-deviation/


文为机器之心编译,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content @jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
登录查看更多
0

相关内容

标准差(Standard Deviation),在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义为方差的算术平方根,反映组内个体间的离散程度。测量到分布程度的结果,原则上具有两种性质:一个总量的标准差或一个随机变量的标准差,及一个子集合样品数的标准差之间,有所差别。标准差的观念是由卡尔·皮尔逊(Karl Pearson)引入到统计中。
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
最新《自动微分手册》77页pdf
专知会员服务
99+阅读 · 2020年6月6日
【CVPR2020-港中文】 图像识别中的自注意力探索
专知会员服务
55+阅读 · 2020年4月29日
干货书《数据科学数学系基础》2020最新版,266页pdf
专知会员服务
318+阅读 · 2020年3月23日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
一步步理解BERT
AINLP
34+阅读 · 2019年6月19日
特征方程的物理意义
算法与数学之美
6+阅读 · 2019年5月13日
Python 热图进阶
专知
15+阅读 · 2019年5月4日
关于 K means 聚类算法,你需要知道这些东西
AI研习社
3+阅读 · 2018年8月19日
入门 | 从零开始,了解元学习
机器之心
17+阅读 · 2018年5月6日
数据科学家需要了解的5种聚类算法
论智
4+阅读 · 2018年4月7日
入门 | 从VGG到NASNet,一文概览图像分类网络
机器之心
6+阅读 · 2018年4月2日
入门 | 这是一份文科生都能看懂的线性代数简介
机器之心
13+阅读 · 2018年3月31日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
6+阅读 · 2019年4月8日
Phase-aware Speech Enhancement with Deep Complex U-Net
Arxiv
5+阅读 · 2017年4月12日
VIP会员
相关VIP内容
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
最新《自动微分手册》77页pdf
专知会员服务
99+阅读 · 2020年6月6日
【CVPR2020-港中文】 图像识别中的自注意力探索
专知会员服务
55+阅读 · 2020年4月29日
干货书《数据科学数学系基础》2020最新版,266页pdf
专知会员服务
318+阅读 · 2020年3月23日
【图神经网络(GNN)结构化数据分析】
专知会员服务
115+阅读 · 2020年3月22日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
谷歌机器学习速成课程中文版pdf
专知会员服务
145+阅读 · 2019年12月4日
相关资讯
一步步理解BERT
AINLP
34+阅读 · 2019年6月19日
特征方程的物理意义
算法与数学之美
6+阅读 · 2019年5月13日
Python 热图进阶
专知
15+阅读 · 2019年5月4日
关于 K means 聚类算法,你需要知道这些东西
AI研习社
3+阅读 · 2018年8月19日
入门 | 从零开始,了解元学习
机器之心
17+阅读 · 2018年5月6日
数据科学家需要了解的5种聚类算法
论智
4+阅读 · 2018年4月7日
入门 | 从VGG到NASNet,一文概览图像分类网络
机器之心
6+阅读 · 2018年4月2日
入门 | 这是一份文科生都能看懂的线性代数简介
机器之心
13+阅读 · 2018年3月31日
相关论文
Top
微信扫码咨询专知VIP会员