支撑统计智慧的第八根支柱是?

2018 年 9 月 13 日 遇见数学

下文节选自《统计学七支柱》, 已获人邮图灵授权许可, [遇见数学] 特此表示感谢! 

“统计学是什么?”

统计学的七个基本支柱——聚合、信息、似然、相互比较、回归、设计、残差

现在,数据集越来越大,待解答的问题和焦虑也越来越多,人们担心现代计算中固有的灵活性将会超过答案确定性的校准和判定能力。如果我们可以把注意力限于少数备选的或结构良好的参数化模型, 就能舒舒服服地待在家里。但许多情况下,这种舒适正在消失,或者成为泡影。例如,考虑这样三类问题:

(1)大数据的预测或者分类器的公式化,数据与许多观测样例有关,每种情况有许多维度的测量;

(2)大型的多重比较问题;

(3)关注的问题至少部分是科学研究最后阶段中的探索性分析。

向上滑动阅览简介及目录 

本书介绍了统计学的七个基本思想——聚合、信息、似然、相互比较、回归、设计、残差,从其由来到引入,从基本概念到对“统计”这门学科的深远影响,并由此深入阐述统计学的科学本质。

前言    

第 1 章 聚合:从表格和均值到最小二乘     

第 2 章 信息:度量与变化率    

第 3 章 似然:概率尺度上的校准    

第 4 章 相互比较:作为标准的样本内变异    

第 5 章 回归:多元分析、贝叶斯推断和因果推断  

第 6 章 设计:实验方案和随机化的作用    

第 7 章 残差:科学逻辑、模型比较以及诊断展示    

结论    


我们面临的第一个问题是任何高维探索都必然面对的。假定现在需要根据 20 个特征构建某种测量的一个响应预测。20 维的空间有多大?如果将每个预测变量的范围划分成四分位数,20 维空间就被划分为 420个不同的部分。如果有 10 亿个观测样例,平均每 1000 个部分才会有一个样例。这个经验基础几乎不可能建立置信度!因此,任何合理的分析必须(哪怕只是含蓄的)做出高度限制的假设:或是通过一个低维的参数模型,或至少假设数据接近某个低维子空间。在这样的假设下,机器学习领域的许多优秀算法已经设计出来。通常,优秀的算法在某些情况下受到了成功应用的有限支持,但几乎没有普遍适用的证据。其中一种情况是所谓的“支持向量机”,统计学家格蕾丝·沃赫拜曾表示,可以将其视为近似特定的贝叶斯处理。通过揭示为什么以及何时会这么好,极大地增加其扩展知识,但一般性的问题依然非常困难。

第二类问题多重比较中,我们面临的是需要进行数目庞大的检验。方差分析中,通过用大量成对比较的置信区间,比较许多个因子的效应。基因组学研究中,数千个点位分别放到彼此不独立的假设检验中。概率校准,即置信区间或显著性检验,对只有一对或一个样例的情况是有效的;但在 50 万个样例的更极端的值中选择样例时,它们就没那么有用了。即使在 20 世纪 60 年代,大家就已经知道,W. 图基和亨利·谢弗所设计的过程,通过弱化结果的陈述,对上面所说的选择做了补偿。它和更大的置信区间一样,并非完整的答案。1965 年,大卫·考克斯看到了困难的一部分:对大量陈述同时成立的正确性计算一个概率事实,通常并不能保证这个概率与其中一个陈述的不确定性的度量相关。考克斯注意到(比如根据图基或者谢弗的),整体修正并不以手边数据的特殊性作为条件,而这或许是因为太保守了。更现代的概念——比如错误发现率——正处在发展阶段,但问题依然困难。第三类问题的焦点问题出现在分析后期,与第一、二类问题有关,但更加一般化。即使在小数据的问题上,可以使用的解决途径也很多。但途径如此之多——甚至从某种角度看——事实上处于一种大数据的 窘境。早在 1885 年,阿尔弗雷德·马歇尔就意识到了这一点,他写道:“所有理论家中,最鲁莽和狡诈的是那些自称让事实和数字为他们说话的人。这些人他在幕后扮演着自己的角色,有意无意地对事实和数字进行选择和重组,并提出‘后发者因之而发’的观点。”安德鲁· 格尔曼从路易斯·博尔赫斯 1941 年的小说标题中借用了一个合适的术语描述这个问题——小径分叉的花园。一个结论经过的曲折、涉及许多选择(关于数据、方向、问题类型)后被合理确定时,没有考虑最终的显著性评价。通常,大数据就是这样的花园。在花园的每个分叉所关注的问题上,我们的校准依然有用,但它们能成功转移到外部的观点吗?

我已经确认了第八根支柱的位置,但没说它是什么。它是一个领域,其中大量过程结合着对某些特定科学问题的部分回答,已经得到发展。这根支柱可能存在,但没有整体结构,还没有获得需要的普遍认同以确立其存在。历史表明,这种普遍认同不会轻易出现,或者不会一步到位。每种有生命力的科学都有它自身的奥秘:天文学是暗能量和暗物质,物理学是弦理论和量子理论,计算机科学是 P-NP 难题, 数学是黎曼假设。甚至对于最困难的情形,现存的七根支柱也能支持至少部分的回答。统计是一门活跃的科学,这七根支柱提供了强大的支持。我们进入了一个充满挑战性的时代,与我们相伴的是其他领域的强大盟友以及胜任挑战的强烈期望。(完)

登录查看更多
0

相关内容

统计学(Statistics)是研究收集、分析、解读、展示及组织(collection, analysis, interpretation, presentation and organization)数据的学科,通过量化地研究随机性,从而理解数据的产生机制,并进行判别、预测、优化、决策。统计学理论和方法是很多现代科学分支的支柱,其广泛的应用深刻地影响现代生活,具有代表性的应用领域包括: 生物/医学(生物统计学,基因统计学,生物信息学,制药学等)
社会学/环境学(社会统计学,心理学,人口学,空间统计学,环境统计学等)
工业工程学(质量控制,可靠性分析等)
经济学/金融学(精算学,金融统计学等)
工程学/计算机科学(统计学习,数据挖掘,信号/图像采样/处理等)
基础科学(统计物理学,统计化学等)
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【2020新书】监督机器学习,156页pdf,剑桥大学出版社
专知会员服务
150+阅读 · 2020年6月27日
【经典书】贝叶斯编程,378页pdf,Bayesian Programming
专知会员服务
244+阅读 · 2020年5月18日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
225+阅读 · 2020年5月2日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
【学科发展报告】生物信息学
中国自动化学会
10+阅读 · 2018年10月22日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
独家 | 一文读懂贝叶斯分类算法(附学习资源)
数据派THU
7+阅读 · 2017年12月7日
知识图谱实战新课上线啦!
炼数成金订阅号
22+阅读 · 2017年11月16日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数
机器学习算法与Python学习
3+阅读 · 2017年9月23日
Arxiv
135+阅读 · 2018年10月8日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
19+阅读 · 2018年6月27日
VIP会员
相关资讯
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
14+阅读 · 2019年1月24日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
【学科发展报告】生物信息学
中国自动化学会
10+阅读 · 2018年10月22日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
独家 | 一文读懂贝叶斯分类算法(附学习资源)
数据派THU
7+阅读 · 2017年12月7日
知识图谱实战新课上线啦!
炼数成金订阅号
22+阅读 · 2017年11月16日
如何用 3 个月零基础入门机器学习?
AI研习社
6+阅读 · 2017年9月27日
机器学习(18)之支持向量机原理(三)线性不可分支持向量机与核函数
机器学习算法与Python学习
3+阅读 · 2017年9月23日
Top
微信扫码咨询专知VIP会员