平均而言,你用的是错误的平均数(下):平均数与概率分布

2018 年 7 月 18 日 论智
来源:Medium
编译:weakish

编者按:Philadelphia Media Network资深数据分析师Daniel McNichol使用R语言演示了毕达哥拉斯平均数在不同概率分布上的效果。

前言

上篇构建了一个在数据分析中理解、使用不那么知名的毕达哥拉斯平均数的实用概念框架。我花了不少篇幅为一般读者构建直觉,基本上只需初等数学作为预备知识。

这篇则将在技术方面更深入一点,在一些概率分布合成的数据上探索这些平均数。接着我们将考察一些可供比较的“真实世界”大型数据集。这篇的使用的表述也会更简短,假定读者对高等数学和概率论有所了解。

毕达哥拉斯平均数温习

让我们复习一下,有3种毕达哥拉斯平均数,遵循如下不等关系:

  
  
    
  1. 调和平均数 ≤ 几何平均数 ≤ 算术平均数

仅当数据集中的所有数字都相等时,这3种平均数才相等。

  • 算术平均数通过加法和除法得到。

  • 几何平均数通过乘法和开方根得到。

  • 调和平均数通过倒数、加法、除法得到。

它们的公式为:

图片来源:维基百科

每种平均数可以表达为另一种平均数的再配置。例如:

  • 几何平均数不过是数据集中的值的对数变换的算术平均数的反对数。有时它也能保留伸缩到同一分母后的算术平均数的次序。

  • 调和平均数不过是数据集中的值的倒数的算术平均数的倒数。它也可以通过适当加权算术平均数重现。

经验规则:

  • 算术平均数最适合相加的、线性的、对称的、正态/高斯数据集。

  • 几何平均数最适合相乘的、几何的、指数的、对数正态分布的、扭曲的数据集,以及尺度不同的比率和复合增长的比率。

  • 调和平均数是三种毕达哥拉斯平均数中最不常见的一种,但非常适合平均以分子为单位的比率,例如行程速度,一些财经指数,从物理到棒球的一些专门应用,还有评估机器学习模型。

限制:

  • 由于相对不那么常用,几何平均数调和平均数对一般受众而言可能难以理解甚至会误导他们。

  • 几何平均数是无单位(unitless)的,尺度和可解释的单位在相乘操作中丢失了。

  • 几何平均数调和平均数无法处理包含0的数据集。

详细的讨论,请参阅上篇。下面我们将查看一些实际的例子。

合成数据集


上篇中,我们在一些微不足道的数据集(等差数列和等比数列)上观察了毕达哥拉斯平均数的效果。这里我们将查看一些更大的合成数据集(实数集上的多种概率分布)。

相加线性数据集而言,我们将从随机正态分布(均值100、标准差20)中抽取10000个样本:

  
  
    
  1. hist(

  2.  rnorm( 10000, 100, 20 )

  3.  )

接着我们将模拟三种相乘数据集(尽管这些数据集具有有意义的差别,仍然常常难以区分):对数正态分布、指数分布、幂律分布。

有很多种生成对数正态分布的方法——基本上任何独立同分布的随机变量的乘法过程都将生成对数正态分布——这也正是它在真实世界中如此常见的原因,特别是在人类活动中。出于简单性和可解释性方面的考虑,我们将以欧拉数为底数,以从正态分布抽取的随机数为指数,然后加上100(使取值范围大致相当我们之前的正态分布):

  
  
    
  1. hist(

  2.  exp(1)^rnorm(10000,3,.9) + 100,

  3.  breaks = 39

  4. )

技术上说,这是指数分布的一个特例,但我们将通过R的rexp函数生成另一个指数分布,我们只需指定样本数以及衰减率(同样,我们在结果上加上100):

  
  
    
  1. hist(

  2.  rexp(10000, 1/10) +100

  3. )

最后,我们将从正态分布取样底数,以欧拉数为指数,接着加上100,生成幂律分布:

(注意,这是对数正态方法的反向操作,在生成对数正态分布时,我们以欧拉数为底数,以正态分布取样为指数)

  
  
    
  1. hist(

  2.  rnorm(10000, 3, 1)^exp(1) + 100

  3. )

接着我们将使用ggridges包以更好地绘制分布,我们也将同时加载tidyverse包,任何有教养的R用户都这么干:

  
  
    
  1. library(tidyverse)

  2. library(ggridges)

  3. dist1 <- rnorm(10000, 100, 20) %>%

  4.            tibble(x=., distribution = "normal")

  5. dist2 <- ( exp(1)^rnorm(10000, 3, .9) + 100 ) %>%

  6.            tibble(x=., distribution = "lognormal")

  7. dist3 <- ( rexp(10000, 1/10) + 100 ) %>%

  8.            tibble(x=., distribution = "exponential")

  9. dist4 <- ( rnorm(10000,3,1)^exp(1) + 100 ) %>%

  10. tibble(x=., distribution = "power law")

  11. dists <- bind_rows(dist1, dist2, dist3, dist4)

  12. dist_ord <- c("normal", "lognormal", "exponential", "power law")

  13. dists <- dists %>%

  14. mutate(distribution = fct_relevel(distribution, dist_ord))

  15. ggplot(dists, aes(x = x, y = fct_rev(distribution), fill=..x..)) +

  16.  geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  17.                               color='white', show.legend = F) +

  18.  theme_minimal(base_size = 13, base_family = "sans") +

  19.  scale_y_discrete(expand = c(0.1, 0)) + xlim(0, 250) +

  20.  theme(panel.grid.major = element_line(colour = "white",

  21.                                        size = .3),

  22.        panel.grid.minor = element_blank(),

  23.        plot.background = element_rect(fill = "whitesmoke"),

  24.        axis.title = element_blank(), legend.position="none") +

  25. ggtitle(label = "Distributions")

现在让我们计算一些概述统计量。

由于R没有内置几何平均数或调和平均数的函数,我们需要自行定义:

  
  
    
  1. # 几何平均数函数

  2. gm_mean = function(x, na.rm=TRUE){

  3.  exp(sum(log(x[x > 0]), na.rm=na.rm) / length(x))

  4. }

  5. dist_stats <- dists %>% group_by(distribution) %>%

  6.  summarise(median = median(x),

  7.            am = mean(x),

  8.            gm = gm_mean(x),

  9.            hm = 1/mean(1/x)     # 调和平均数公式

  10. )

输出:

  
  
    
  1. # A tibble: 4 x 5

  2.  distribution median    am    gm    hm

  3.  <fct>         <dbl> <dbl> <dbl> <dbl>

  4. 1 normal         99.6  99.9  97.7  95.4

  5. 2 lognormal     120   129   127   125  

  6. 3 exponential   107   110   110   109  

  7. 4 power law     120   125   124   122

……在绘制的图形上加上这些平均数:

  
  
    
  1. ggplot(dists, aes(x = x, y = fct_rev(distribution), fill=..x..)) +

  2.  geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  3.                               color='white', show.legend = F) +

  4.  theme_minimal(base_size = 13, base_family = "sans") +

  5.  scale_y_discrete(expand = c(0.1, 0)) + xlim(0, 200) +

  6.  geom_point(data = dist_stats, aes(y=distribution, x=am),

  7.             colour="green3", shape=3, size=1, stroke =2,

  8.             alpha=.9, show.legend = F) +

  9.  geom_point(data = dist_stats, aes(y=distribution, x=gm),

  10.             colour="green3", fill="green3", shape=24, size=3,

  11.             alpha=.9, show.legend = F) +

  12.  geom_point(data = dist_stats, aes(y=distribution, x=hm),

  13.             colour="green3",fill= "green3", shape=25, size=3,

  14.             alpha=.9, show.legend = F) +

  15.  geom_segment(data = dist_stats, aes(x = median, xend = median,

  16.                                      y = c(4,3,2,1),

  17.                                      yend = c(4,3,2,1) + .3),

  18.               color = "salmon", show.legend = F) +

  19.  theme(panel.grid.major = element_line(colour = "white",

  20.                                        size = .3),

  21.        panel.grid.minor = element_blank(),

  22.        plot.background = element_rect(fill = "whitesmoke"),

  23.        axis.title = element_blank(), legend.position="none") +

  24.  ggtitle(label = "Distributions & summary statistics",

  25. subtitle = "| : median        : harmonic mean        : geometric mean        : arithmetic mean")

我们立刻看到了扭曲的密度的影响,以及平均数的重尾分布以及它们和中位数的关系:

  • 正态分布上,由于数据分布基本上是对称的,中位数算术平均数几乎相等(分别是99.699.9)。

  • 在向右扭曲的其他分布上,所有平均数均位于中位数右方,靠近数据集较密集的驼峰。

不过上图中的平均数有点拥挤,所以让我们放大一点来看(调整xlim()):

  
  
    
  1. ...xlim(90, 150)...

  • 我们再一次看到,在正态、对称数据集上,几何平均数和调和平均数低估了数据的“中点”,不过三个平均数大致上间隔的空间是相等的。

  • 对数正态分布上,中等瘦削的长尾使平均数远离中位数,甚至也扭曲了平均数的分布,使算术平均数到几何平均数的距离比几何平均数到调和平均数的距离更远。

  • 指数分布上,数值高度密集,指数瘦削的短尾飞速衰减,使得平均数也挤作一团——尽管严重的扭曲仍然使它们偏离中位数

  • 幂律分布衰减较慢,也因此具有最肥的尾部。它的“主体”部分仍然是接近正态的,在不对称分布中的扭曲是最轻微的。平均数之间的距离大致相等,不过仍然远离中位数

我之前提到过几何平均数和算术平均数之间的对数关系:

几何平均数不过是数据集中的值的对数变换的算术平均数的反对数。

为了验证这一点,让我们再看一看我们的概述统计量表格:

  
  
    
  1. # A tibble: 4 x 5

  2.  distribution median    am    gm    hm

  3.  <fct>         <dbl> <dbl> <dbl> <dbl>

  4. 1 normal         99.6  99.9  97.7  95.4

  5. 2 lognormal     120   129   127   125  

  6. 3 exponential   107   110   110   109  

  7. 4 power law     120   125   124   122

注意我们的对数正态分布的几何平均数是127.

现在我们计算对数变换值的算术平均数

  
  
    
  1. dist2$x %>% log() %>% mean()

输出:

  
  
    
  1. 4.84606

取反对数:

  
  
    
  1. exp(1)^4.84606

输出:

  
  
    
  1. 127.2381

现在,为了把这一点讲透彻,让我们看看为什么会这样(以及对数正态是如何得名的):

减去我们原本加上的100,然后取对数:

  
  
    
  1. (dist2$x — 100) %>% log() %>% hist()

名副其实,对数正态分布的对数变换将产生正态分布。因此,正态分布中以相加为基础的算术平均数的结果与对数正态分布中以相乘为本质的几何平均数的结果是一致的。

我们不应该对对数正态分布的数据集经过对数变换得到的无可挑剔的正态分布过于印象深刻,毕竟我们在指定生成对数正态分布值的具体数据生成过程时就使用了正态分布,我们现在不过是反向操作以重现底层的正态分布而已。

现实世界中的事情很少如此整洁,现实世界的生成过程通常更复杂,是未知的,或者不可知的。因此如何建模和描述得自经验的数据集充满了困惑和争议。

让我们查看一些这样的数据集,了解下真实世界的烦恼。

真实世界数据


尽管通常不像模拟数据那样温顺,真实世界数据集通常至少再现了上述四种分布中的一种。

正态分布——喧闹的“钟形曲线”——最常出现在自然、生物场景中。身高和体重是经典的例子。因此,我们的第一直觉是看看可信赖的iris数据集。它确实满足要求,但样本数有点小(数据集中单种花卉的样本数为50)。我想要更大的数据集。

所以让我们加载bigrquery包:

  
  
    
  1. library(bigrquery)

Google的BigQuery提供了众多真实数据的公开数据集,其中一些非常大,例如基因、专利、维基百科文章数据。

回到我们最初的目标,natality(译者注:natality意为出生率)看起来就很生物:

  
  
    
  1. project <- “YOUR-PROJECT-ID”

  2. sql <- “SELECT COUNT(*)

  3.        FROM `bigquery-public-data.samples.natality`

  4. query_exec(sql, project = project, use_legacy_sql = F)

(提示:由于有海量数据,因此你可能需要为访问数据付费,不过每个月前1TB的数据访问是免费的。另外,尽管出于明显的原因,强烈不推荐使用SELECT *,SELECT COUNT(*)却是一项免费的操作,使用它确定范围是个好主意。)

输出:

  
  
    
  1. 137826763

一亿三千七百万婴儿数据!我们用不了这么多,所以让我们随机取样1%婴儿的体重,获取前一百万结果:

  
  
    
  1. sql <- “SELECT weight_pounds

  2.        FROM `bigquery-public-data.samples.natality`

  3.        WHERE RAND() < .01

  4. natal <- query_exec(sql, project = project, use_legacy_sql = F,

  5.                    max_pages = 100)

hist(natal$weight_pounds)生成:

至少在我看来这是正态分布。

现在让我们找找有些扭曲的相乘数据,让我们从生物学转向社会学。

我们将查看New York(纽约)数据集,其中包含各种城市信息,包括黄色出租车和绿色出租车的行程信息(译者注:纽约的出租车分为黄、绿两种,两者允许接客区域不同)。

  
  
    
  1. sql <- “SELECT COUNT(*)

  2.        FROM `nyc-tlc.green.trips_2015`

  3. query_exec(sql, project = project, use_legacy_sql = F)

输出:

  
  
    
  1. 9896012

不到一千万条记录,所以让我们抓取所有的行程距离:

(这可能需要花费一点时间)

  
  
    
  1. sql <- "SELECT trip_distance FROM `nyc-tlc.green.trips_2015`"

  2. trips <- query_exec(sql, project = project, use_legacy_sql = F)

  3. hist(trips$trips_distance)

-_-

看起来一些极端的离散值将我们的x轴拉到了八百英里开外。对出租车而言,这也太远了。让我们移除这些离散值,将距离限定至20英里:

  
  
    
  1. trips$trip_distance %>% subset(. <= 20) %>% hist()

我们做到了,得到了对数正态分布标志性的长尾。让我们验证一下分布的对数正态性,绘制对数的直方图:

  
  
    
  1. trips$trip_distance %>% subset(. <= 20) %>% log() %>% hist()

明显有正态分布的样子,不过偏离了一点靶心,有一点向左扭曲。哎呀,真实世界就是这样的。不过我们有把握说,应用对数正态分布至少不算荒谬。

让我们继续前行。寻找更重尾分布的数据。这次我们将使用Github数据集:

  
  
    
  1. sql <- "SELECT COUNT(*)

  2.        FROM `bigquery-public-data.samples.github_nested`"

  3. query_exec(sql, project = project, use_legacy_sql = F)

输出:

  
  
    
  1. 2541639

二百五十万项记录。我开始为本地机器的内存担心了,所以我将通过随机取样去掉一半数据,然后查看剩余代码仓库的关注数(watchers):

  
  
    
  1. sql <- “SELECT repository.watchers

  2.        FROM `bigquery-public-data.samples.github_nested`

  3.        WHERE RAND() < .5

  4. github <- query_exec(sql, project = project, use_legacy_sql = F,

  5.                     max_pages = 100)

  6. github$watchers %>% hist()

极端的长尾,所以让我们移除过低和过高的关注数:

  
  
    
  1. github$watchers %>% subset(5 < . & . < 3000) %>% hist()

这是指数分布。

但是它是不是同时也是对数正态分布?

  
  
    
  1. github$watchers %>% subset(5 < . & . < 3000) %>% log() %>% hist()

否。

不过我们看到了一头珍稀的野兽:(逼近)LogUniform分布!

让我们再从大数据中抽取一次,这次我们将查看Hacker News帖子的评分:

  
  
    
  1. sql <- “SELECT COUNT(*)

  2.        FROM `bigquery-public-data.hacker_news.full`

  3. query_exec(sql, project = project, use_legacy_sql = F)

输出:

  
  
    
  1. 16489224

我们抽取前10%的样本:

  
  
    
  1. sql <- “SELECT score

  2.        FROM `bigquery-public-data.hacker_news.full`

  3.        WHERE RAND() < .1

  4. hn <- query_exec(sql, project = project, use_legacy_sql = F,

  5.                 max_pages = 100)

  6. hn$score %>% hist()

同样,我们截取中间部分的评分:

  
  
    
  1. hn$score %>% subset(10 < . & . <= 300) %>% hist()

截取中间部分后,衰减得慢了。看看对数变换的结果?

  
  
    
  1. hn$score %>% subset(10 < . & . <= 300) %>% log() %>% hist()

同样大致是右向衰减的LogUniform分布。

我对幂律分布的搜寻没有得到结果,这也许并不值得惊讶,毕竟幂律分布最常出现在网络科学中(甚至,即使在网络科学中,幂律分布看起来也比最初宣称的要罕见)。

不管怎么说,让我们也像模拟分布那样绘制真实数据集的分布图,并加以对比。同样,我们将对其加以标准化,使其位于100左右。

  
  
    
  1. # 定制标准化函数

  2. normalize = function(x, na.rm = T){

  3.  (x-min(x[!is.na(x)]))/(max(x[!is.na(x)])-min(x[!is.na(x)]))

  4. }

  5. rndist1 <- (normalize(natality$weight_pounds) + 100) %>%

  6.              tibble(x=., distribution = "natal weights")

  7. trip_trim <- trips$trip_distance %>% subset(. <= 20)

  8. rndist2 <- (normalize(trip_trim) + 100) %>%

  9.              tibble(x=., distribution = "nyc green cab trips")

  10. git_trim <- github$watchers %>% subset(5 < . & . < 3000)

  11. rndist3 <- (normalize(git_trim) + 100) %>%

  12.              tibble(x=., distribution = "github watchers")

  13. hn_trim <- hn$score %>% subset(10 < . & . <= 300)

  14. rndist4 <- (normalize(hn_trim) + 100) %>%

  15. tibble(x=., distribution = "hacker news scores")

  16. rndists <- bind_rows(rndist1, rndist2, rndist3, rndist4)

  17. rndist_ord <- c("natal weights", "nyc green cab trips",

  18.                "github watchers", "hacker news scores")

  19. rndists <- rndists %>%

  20. mutate(distribution = fct_relevel(distribution, rndist_ord))

  21. ggplot(rndists, aes(x = x, y = fct_rev(distribution), fill=..x..)) +

  22.  geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  23.                               color='white', show.legend = F) +

  24.  theme_minimal(base_size = 13, base_family = "sans") +

  25.  scale_y_discrete(expand = c(0.1, 0)) + xlim(99.5, 101) +

  26.  theme(panel.grid.major = element_line(colour = "white", size = .3),

  27.        panel.grid.minor = element_blank(),

  28.        plot.background = element_rect(fill = "whitesmoke"),

  29.        axis.title = element_blank(), legend.position="none") +

  30. ggtitle(label = "Distributions")

由于来自真实世界,和模拟分布相比,边缘更加粗糙不平。不过仍然看起来相似。让我们用Thomas Lin Pedersen的patchwork包绘制模拟分布和真实分布的对比图:

  
  
    
  1. # 将图形分配给对象

  2. p1 <-ggplot(dists, aes(x = x, y = fct_rev(distribution), fill=..x..)) +

  3.  geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  4.                               color='white', show.legend = F) +

  5.  theme_minimal(base_size = 13, base_family = "sans") +

  6.  scale_y_discrete(expand = c(0.1, 0)) + xlim(0, 250) +

  7.  theme(panel.grid.major = element_line(colour = "white", size = .3),

  8.        panel.grid.minor = element_blank(),

  9.        plot.background = element_rect(fill = "whitesmoke"),

  10.        axis.title = element_blank(), legend.position="none") +

  11.  ggtitle(label = "Distributions")

  12. p2 <- ggplot(rndists, aes(x = x, y = fct_rev(distribution), fill=..x..)) +

  13.  geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  14.                               color='white', show.legend = F) +

  15.  theme_minimal(base_size = 13, base_family = "sans") +

  16.  scale_y_discrete(expand = c(0.1, 0)) + xlim(99.5, 101) +

  17.  theme(panel.grid.major = element_line(colour = "white", size = .3),

  18.        panel.grid.minor = element_blank(),

  19.        plot.background = element_rect(fill = "whitesmoke"),

  20.        axis.title = element_blank(), legend.position="none") +

  21.  ggtitle(label = "Distributions")

  22. # 直接将图形对象相加

  23. p1 + p2

总体来看,模拟分布将为相邻的真实数据集提供合理的模型,除了幂律 -> HackerNews评分这一对例外。

当然有很多模型拟合方面的严谨测试,不过让我们直接在分布上绘制概述统计量,就像我们之前做的那样。

不幸的是,标准化的真实世界数据扭曲了概述统计量计算,使得结果多多少少难以区分。我怀疑这可能是因为计算机的浮点计算精度问题(不过也可能只是因为我自己在数值计算上犯了错误)。我不得不使用未标准化的真实世界数据单独绘制,然后尝试手工对齐。

让我们组合未标准化的分布,然后计算概述性数据:

  
  
    
  1. # 未标准化

  2. rdist1 <- natality$weight_pounds  %>%

  3.  tibble(x=., distribution = "natal weights")

  4. rdist2 <- trips$trip_distance %>% subset(. <= 20) %>%

  5.  tibble(x=., distribution = "nyc green cab trips")

  6. rdist3 <- github$watchers %>% subset(5 < . & . < 3000) %>%

  7.  tibble(x=., distribution = "github watchers")

  8. rdist4 <- hn$score %>% subset(10 < . & . <= 300) %>%

  9.  tibble(x=., distribution = "hacker news scores")  

  10. rdists <- bind_rows(rdist1, rdist2, rdist3, rdist4)

  11. rdist_ord <- c("natal weights", "nyc green cab trips",

  12.               "github watchers", "hacker news scores")

  13. rdists <- rdists %>%

  14.  mutate(distribution = fct_relevel(distribution, rdist_ord))

  15. rdist_stats <- rdists %>% group_by(distribution) %>%

  16.  summarise(median = median(x, na, na.rm = T),

  17.            am = mean(x, na.rm = T),

  18.            gm = gm_mean2(x[x>0]),

  19. hm = 1/mean(1/x[x>0], na.rm = T))

现在让我们绘图(这很丑陋因为我们需要为每个真实分布创建单独的图形,好在patchwork让我们可以优雅地定义布局):

  
  
    
  1. # 模拟分布的绘图和之前一样

  2. pm1 <- ggplot(dists, aes(x = x, y = fct_rev(distribution), fill=..x..)) +

  3.          geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  4.                                       color='white', show.legend = F) +

  5.          theme_minimal(base_size = 13, base_family = "sans") +

  6.          scale_y_discrete(expand = c(0.1, 0)) + xlim(0, 250) +

  7.          geom_point(data = dist_stats, aes(y=distribution, x=am),

  8.                     colour="green3", shape=3, size=1, stroke =2,

  9.                     alpha=.9, show.legend = F) +

  10.          geom_point(data = dist_stats, aes(y=distribution, x=gm),

  11.                     colour="green3", fill="green3", shape=24, size=3,# stroke = 1,

  12.                     alpha=.9, show.legend = F) +

  13.          geom_point(data = dist_stats, aes(y=distribution, x=hm),

  14.                     colour="green3",fill= "green3", shape=25, size=3,# stroke = 1,

  15.                     alpha=.9, show.legend = F) +

  16.          geom_segment(data = dist_stats, aes(x = median, xend = median,

  17.                                              y = c(4,3,2,1),

  18.                                              yend = c(4,3,2,1) + .3),

  19.                       color = "salmon", show.legend = F)+

  20.          theme(panel.grid.major = element_line(colour = "white", size = .3),

  21.                panel.grid.minor = element_blank(),

  22.                plot.background = element_rect(fill = "whitesmoke"),

  23.                axis.title = element_blank(), legend.position="none") +

  24.          ggtitle(label = "Distributions & summary statistics",

  25.                  subtitle = "| : median        : harmonic mean        : geometric mean        : arithmetic mean")

  26. # 真实数据

  27. p3 <-  ggplot(rdist1, aes(x = x, y = distribution, fill = ..x..)) +

  28.          geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  29.                                       color='white', show.legend = F) +

  30.          theme_minimal(base_size = 13, base_family = "sans") +

  31.          scale_y_discrete(expand = c(0.1, 0)) + #xlim(3, 11) +

  32.          geom_point(data = rdist_stats[1,], aes(y=distribution, x=am),

  33.                     colour="green3", shape=3, size=1, stroke =2,

  34.                     alpha=.9, show.legend = F) +

  35.          geom_point(data = rdist_stats[1,], aes(y=distribution, x=gm),

  36.                     colour="green3", fill="green3", shape=24, size=3,# stroke = 1,

  37.                     alpha=.9, show.legend = F) +

  38.          geom_point(data = rdist_stats[1,], aes(y=distribution, x=hm),

  39.                     colour="green3",fill= "green3", shape=25, size=3,# stroke = 1,

  40.                     alpha=.9, show.legend = F) +

  41.          geom_segment(data = rdist_stats[1,], aes(x = median, xend = median,

  42.                                               y = 1,

  43.                                               yend = 1 + .3),

  44.                       color = "salmon", show.legend = F)+

  45.          theme(panel.grid.major = element_line(colour = "white", size = .3),

  46.                panel.grid.minor = element_blank(),

  47.                plot.background = element_rect(fill = "whitesmoke"),

  48.                axis.title = element_blank(), legend.position="none",

  49.                axis.text.x=element_blank())

  50. p4 <-  ggplot(rdist2, aes(x = x, y = distribution, fill = ..x..)) +

  51.          geom_density_ridges_gradient(quantiles = 2, scale=0.9,

  52.                                       color='white', show.legend = F) +

  53.          theme_minimal(base_size = 13, base_family = "sans") +

  54.          scale_y_discrete(expand = c(0.1, 0)) + #xlim(-1, 4) +

  55.          geom_point(data = rdist_stats[2,], aes(y=distribution, x=am),

  56.                     colour="green3", shape=3, size=1, stroke =2,

  57.                     alpha=.9, show.legend = F) +

  58.          geom_point(data = rdist_stats[2,], aes(y=distribution, x=gm),

  59.                     colour="green3", fill="green3", shape=24, size=3,# stroke = 1,

  60.                     alpha=.9, show.legend = F) +

  61.          geom_point(data = rdist_stats[2,], aes(y=distribution, x=hm),

  62.                     colour="green3",fill= "green3", shape=25, size=3,# stroke = 1,

  63.                     alpha=.9, show.legend = F) +

  64.          geom_segment(data = rdist_stats[2,], aes(x = median, xend = median,

  65.                                                   y = 1,

  66.                                                   yend = 1 + .3),

  67.                       color = "salmon", show.legend = F)+        

  68.          theme(panel.grid.major = element_line(colour = "white", size = .3),

  69.                panel.grid.minor = element_blank(),

  70.                plot.background = element_rect(fill = "whitesmoke"),

  71.                axis.title = element_blank(), legend.position="none",

  72.                axis.text.x=element_blank())

  73. p5 <-  ggplot(rdist3, aes(x = x, y = distribution, fill = ..x..)) +

  74.          geom_density_ridges_gradient(quantiles = 2, scale=200,

  75.                                       color='white', show.legend = F) +

  76.          theme_minimal(base_size = 13, base_family = "sans") +

  77.          scale_y_discrete(expand = c(0.1, 0)) + #xlim(20, 450) +

  78.          geom_point(data = rdist_stats[3,], aes(y=distribution, x=am),

  79.                     colour="green3", shape=3, size=1, stroke =2,

  80.                     alpha=.9, show.legend = F) +

  81.          geom_point(data = rdist_stats[3,], aes(y=distribution, x=gm),

  82.                     colour="green3", fill="green3", shape=24, size=3,# stroke = 1,

  83.                     alpha=.9, show.legend = F) +

  84.          geom_point(data = rdist_stats[3,], aes(y=distribution, x=hm),

  85.                     colour="green3",fill= "green3", shape=25, size=3,# stroke = 1,

  86.                     alpha=.9, show.legend = F) +

  87.          geom_segment(data = rdist_stats[3,], aes(x = median, xend = median,

  88.                                                   y = 1,

  89.                                                   yend = 1 + .3),

  90.                       color = "salmon", show.legend = F)+        

  91.          theme(panel.grid.major = element_line(colour = "white", size = .3),

  92.                panel.grid.minor = element_blank(),

  93.                plot.background = element_rect(fill = "whitesmoke"),

  94.                axis.title = element_blank(), legend.position="none",

  95.                axis.text.x=element_blank())

  96. p6 <-  ggplot(rdist4, aes(x = x, y = distribution, fill = ..x..)) +

  97.          geom_density_ridges_gradient(quantiles = 2, scale=40,

  98.                                       color='white', show.legend = F) +

  99.          theme_minimal(base_size = 13, base_family = "sans") +

  100.          scale_y_discrete(expand = c(.01, 0)) + #xlim(0, 100) +

  101.          geom_point(data = rdist_stats[4,], aes(y=distribution, x=am),

  102.                     colour="green3", shape=3, size=1, stroke =2,

  103.                     alpha=.9, show.legend = F) +

  104.          geom_point(data = rdist_stats[4,], aes(y=distribution, x=gm),

  105.                     colour="green3", fill="green3", shape=24, size=3,# stroke = 1,

  106.                     alpha=.9, show.legend = F) +

  107.          geom_point(data = rdist_stats[4,], aes(y=distribution, x=hm),

  108.                     colour="green3",fill= "green3", shape=25, size=3,# stroke = 1,

  109.                     alpha=.9, show.legend = F) +

  110.          geom_segment(data = rdist_stats[4,], aes(x = median, xend = median,

  111.                                                   y = 1,

  112.                                                   yend = 1 + .3),

  113.                       color = "salmon", show.legend = F)+        

  114.          theme(panel.grid.major = element_line(colour = "white", size = .3),

  115.                panel.grid.minor = element_blank(),

  116.                plot.background = element_rect(fill = "whitesmoke"),

  117.                axis.title = element_blank(), legend.position="none")

  118. # 魔法般的patchwork布局语法

  119. pm1 | (p3 / p4 / p5 / p6)

有趣的是,我们的真实世界数据集的概述统计量看起来明显比模拟分布上更为分散。让我们放大一点看看。

为了节省篇幅,我这里不会重复粘贴代码,基本上我不过是修改了pm1的xlim(90, 150),并且去掉了上述代码中的xlim()行的注释:

放大后对比更鲜明了。

我们对模拟和真实世界分布上的毕达哥拉斯平均数的探索到此为止。

如果你还没有看过上篇,可以看一下,上篇给出了一个更明确、更直观的介绍。同时,别忘了参考后面给出的链接和进一步阅读。

另外,如果你想读到更多这样的文章,可以在Twitter、LinkedIn、Github上关注我(我在上面的用户名都是dnlmc)。

参考链接和进一步阅读

上篇

  • 毕达哥拉斯平均数 —— 维基百科

  • 概述统计量 —— 维基百科

  • 集中趋势 —— 维基百科

  • Measures of Location & Spread —— stat.berkeley.edu

  • Median vs Average Household Income —— LinkedIn

  • Mean vs Median Income —— wkuappliedeconomics.org

  • You should summarize data with the geometric mean —— Medium

  • Which ‘mean’ to use & when? —— StackOverflow

  • When is it most appropriate to take the arithmetic mean vs. geometric mean vs. harmonic mean? —— Quora

  • Arithmetric, Harmonic & Geometric Means with R —— economistatlarge.com

  • Using the Price-to-Earnings Harmonic Mean to Improve Firm Valuation Estimates —— Journal of Financial Education

下篇

  • 重尾分布 —— 维基百科

  • Relationships among probability distributions —— 维基百科

  • Living in A Lognormal World —— win-vector.com

  • A Brief History of Generative Models for Power Law and Lognormal Distributions —— Internet Mathematics

  • Difference between power law distribution and exponential decay —— math.stackexchange.com

  • Scant Evidence of Power Laws Found in Real-World Networks —— Quanta Magazine

原文地址:https://towardsdatascience.com/on-average-youre-using-the-wrong-average-part-ii-b32fcb41527e

登录查看更多
12

相关内容

最新《自动微分手册》77页pdf
专知会员服务
102+阅读 · 2020年6月6日
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
178+阅读 · 2020年6月3日
【实用书】数据科学基础,484页pdf,Foundations of Data Science
专知会员服务
120+阅读 · 2020年5月28日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
33+阅读 · 2020年4月15日
【干货书】数值计算C编程,319页pdf,Numerical C
专知会员服务
69+阅读 · 2020年4月7日
合集 | 更好的解释(数学篇) 1~12
遇见数学
31+阅读 · 2018年10月11日
不用数学讲清马尔可夫链蒙特卡洛方法?
算法与数学之美
16+阅读 · 2018年8月8日
LASSO回归与XGBoost:融合模型预测房价
论智
32+阅读 · 2018年8月8日
机器之心最干的文章:机器学习中的矩阵、向量求导
深度学习世界
12+阅读 · 2018年2月7日
零基础概率论入门:最大似然估计
论智
12+阅读 · 2018年1月18日
用 Python 进行贝叶斯模型建模(1)
Python开发者
3+阅读 · 2017年7月11日
[有意思的数学] 参数估计
机器学习和数学
15+阅读 · 2017年6月4日
Arxiv
24+阅读 · 2019年11月24日
Arxiv
6+阅读 · 2018年10月3日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
6+阅读 · 2018年4月4日
Arxiv
11+阅读 · 2018年3月23日
Arxiv
5+阅读 · 2018年1月16日
VIP会员
相关VIP内容
相关资讯
合集 | 更好的解释(数学篇) 1~12
遇见数学
31+阅读 · 2018年10月11日
不用数学讲清马尔可夫链蒙特卡洛方法?
算法与数学之美
16+阅读 · 2018年8月8日
LASSO回归与XGBoost:融合模型预测房价
论智
32+阅读 · 2018年8月8日
机器之心最干的文章:机器学习中的矩阵、向量求导
深度学习世界
12+阅读 · 2018年2月7日
零基础概率论入门:最大似然估计
论智
12+阅读 · 2018年1月18日
用 Python 进行贝叶斯模型建模(1)
Python开发者
3+阅读 · 2017年7月11日
[有意思的数学] 参数估计
机器学习和数学
15+阅读 · 2017年6月4日
Top
微信扫码咨询专知VIP会员