下文节选自《统计学七支柱》, 已获人邮图灵授权许可, [遇见数学] 特此表示感谢!
“统计学是什么?”
统计学的七个基本支柱——聚合、信息、似然、相互比较、回归、设计、残差
现在,数据集越来越大,待解答的问题和焦虑也越来越多,人们担心现代计算中固有的灵活性将会超过答案确定性的校准和判定能力。如果我们可以把注意力限于少数备选的或结构良好的参数化模型, 就能舒舒服服地待在家里。但许多情况下,这种舒适正在消失,或者成为泡影。例如,考虑这样三类问题:
(1)大数据的预测或者分类器的公式化,数据与许多观测样例有关,每种情况有许多维度的测量;
(2)大型的多重比较问题;
(3)关注的问题至少部分是科学研究最后阶段中的探索性分析。
我们面临的第一个问题是任何高维探索都必然面对的。假定现在需要根据 20 个特征构建某种测量的一个响应预测。20 维的空间有多大?如果将每个预测变量的范围划分成四分位数,20 维空间就被划分为 420个不同的部分。如果有 10 亿个观测样例,平均每 1000 个部分才会有一个样例。这个经验基础几乎不可能建立置信度!因此,任何合理的分析必须(哪怕只是含蓄的)做出高度限制的假设:或是通过一个低维的参数模型,或至少假设数据接近某个低维子空间。在这样的假设下,机器学习领域的许多优秀算法已经设计出来。通常,优秀的算法在某些情况下受到了成功应用的有限支持,但几乎没有普遍适用的证据。其中一种情况是所谓的“支持向量机”,统计学家格蕾丝·沃赫拜曾表示,可以将其视为近似特定的贝叶斯处理。通过揭示为什么以及何时会这么好,极大地增加其扩展知识,但一般性的问题依然非常困难。
第二类问题多重比较中,我们面临的是需要进行数目庞大的检验。方差分析中,通过用大量成对比较的置信区间,比较许多个因子的效应。基因组学研究中,数千个点位分别放到彼此不独立的假设检验中。概率校准,即置信区间或显著性检验,对只有一对或一个样例的情况是有效的;但在 50 万个样例的更极端的值中选择样例时,它们就没那么有用了。即使在 20 世纪 60 年代,大家就已经知道,W. 图基和亨利·谢弗所设计的过程,通过弱化结果的陈述,对上面所说的选择做了补偿。它和更大的置信区间一样,并非完整的答案。1965 年,大卫·考克斯看到了困难的一部分:对大量陈述同时成立的正确性计算一个概率事实,通常并不能保证这个概率与其中一个陈述的不确定性的度量相关。考克斯注意到(比如根据图基或者谢弗的),整体修正并不以手边数据的特殊性作为条件,而这或许是因为太保守了。更现代的概念——比如错误发现率——正处在发展阶段,但问题依然困难。第三类问题的焦点问题出现在分析后期,与第一、二类问题有关,但更加一般化。即使在小数据的问题上,可以使用的解决途径也很多。但途径如此之多——甚至从某种角度看——事实上处于一种大数据的 窘境。早在 1885 年,阿尔弗雷德·马歇尔就意识到了这一点,他写道:“所有理论家中,最鲁莽和狡诈的是那些自称让事实和数字为他们说话的人。这些人他在幕后扮演着自己的角色,有意无意地对事实和数字进行选择和重组,并提出‘后发者因之而发’的观点。”安德鲁· 格尔曼从路易斯·博尔赫斯 1941 年的小说标题中借用了一个合适的术语描述这个问题——小径分叉的花园。一个结论经过的曲折、涉及许多选择(关于数据、方向、问题类型)后被合理确定时,没有考虑最终的显著性评价。通常,大数据就是这样的花园。在花园的每个分叉所关注的问题上,我们的校准依然有用,但它们能成功转移到外部的观点吗?
我已经确认了第八根支柱的位置,但没说它是什么。它是一个领域,其中大量过程结合着对某些特定科学问题的部分回答,已经得到发展。这根支柱可能存在,但没有整体结构,还没有获得需要的普遍认同以确立其存在。历史表明,这种普遍认同不会轻易出现,或者不会一步到位。每种有生命力的科学都有它自身的奥秘:天文学是暗能量和暗物质,物理学是弦理论和量子理论,计算机科学是 P-NP 难题, 数学是黎曼假设。甚至对于最困难的情形,现存的七根支柱也能支持至少部分的回答。统计是一门活跃的科学,这七根支柱提供了强大的支持。我们进入了一个充满挑战性的时代,与我们相伴的是其他领域的强大盟友以及胜任挑战的强烈期望。(完)