高考作文题“幸存者偏差”难哭了?这有份标准答案

2018 年 6 月 8 日 大数据文摘

大数据文摘摘自魔鬼数学


高考作文已经出炉,并毫无意料地刷屏了。其中,全国卷2的作文被吐槽得最狠,不仅仅是因为难,而是根本就看!不!懂!


题目是这样的:

二战期间战斗机防护,多数人认为,应该在机身中弹多的地方加强防护。但有一位专家认为,应该注意防护弹痕少的地方。如果这部分有重创,后果会非常严重。而往往这部分数据会被忽略。事实证明,专家是正确的。请考生结合材料进行分析。自定立意、自拟标题,写一段作文。

是不是看完之后一头雾水,哈哈,如果你经常关注大数据文摘,那么面对这种有数学背景的语文题目,就可以说so easy~~~


早在2015年的时候,大数据文摘就从乔丹·艾伦伯格的《魔鬼数学》把幸存者偏差概念提取出来过,现在文摘菌重新把这篇文章拿出来,帮助大家重温“幸存者偏差”~~~


数学知识什么时候能派上用场呢?


在地球上某个地方的一间教室里,一位数学老师布置了30道定积分练习题作为学生的周末作业。要做完这些题,肯定需要花费大量时间,因此,一名学生大声地表达了自己的疑惑。他问了老师最不愿意回答的问题:“这些知识我什么时候能用上呢?”


这位老师很可能会这样回答:“我知道这些题目非常枯燥,可是你别忘了,你还不知道自己将来会选择什么样的职业。现在,你看不到这些知识与你有什么关系,但是你将来从事的职业有可能非常需要这些知识,所以你应该快速准确地完成这些定积分练习题。”


师生两人都知道这其实是一个谎言,而且学生通常不会对这样的回答感到满意,毕竟,即使有的成年人可能会用到积分、、余弦公式或者多项式除法等知识,人数也屈指可数。


这个回答就连老师也不会满意。我对于这一点很有发言权,因为在我多年担任数学老师的时光里,我就为成百上千的大学生布置过很多定积分练习题。


值得庆幸的是,对于这个问题,我们能找到一个更好的答案:


尽管一些数学课程会要求你完成一道又一道计算题,让你觉得这些机械的计算过程不榨干你的所有耐心与精力就不会罢休,但事实并非如此。学习数学必须计算这些定积分题,就像足球运动员需要接受举重与韧性训练。如果你希望踢好足球(我是指抱着一种认真的态度,达到竞技水平),就必须接受大量枯燥、重复、看似毫无意义的训练。职业足球运动员在比赛时会用到这些训练内容吗?不会的,我们从未在赛场上看到有足球运动员举杠铃或者在交通锥之间穿梭前行。但是,我们肯定会看到他们应用力量、速度、观察力与柔韧性,而要提高这些能力,他们必须常年接受枯燥乏味的训练。可以说,这些训练内容是足球运动的一个组成部分。


“数学与足球非常相似。你的就业目标可能与数学没有相关性,这很正常,大多数人的情况都是这样。但是,你仍然可以运用数学知识,甚至你手头正在做的事情有可能就用到了数学知识,只不过你自己不知道。数学与逻辑推理紧密地交织在一起,可以增强我们处理事务的能力。掌握了数学知识,就像戴了一副X射线眼镜一样,我们可以透过现实世界错综复杂的表面现象,看清其本质。多少个世纪以来,由于人们辛勤钻研、反复辩论,数学的各种公式与定理已经得到了千锤百炼,可以帮助我们在处理事务时避免犯错。利用数学这个工具,我们可以更深入、更准确地理解我们这个世界,而且可以取得更有意义的成果。我们需要做的就是找到一位良师或者一本好书,引导我们学习数学中的一些规则和基本方法。现在,我愿意担任这样的指导老师,告诉你如何实现这个目的。”


不过,那名学生仍然可能心存疑惑。“老师,你的话听起来很有道理。”她会说,“但是,太抽象了。你刚才说掌握了数学知识之后,本来有可能做错的事,现在不会出错了。但是,哪些事情会是这样的呢?能不能举一个真实的例子?”


这时候,我会给她讲亚伯拉罕·瓦尔德(Abraham Wald)与失踪的弹孔这个故事。




亚伯拉罕·瓦尔德与失踪的弹孔


同很多的“二战”故事一样,这个故事讲述的也是纳粹将—名犹太人赶出欧洲,最后又为这一行为追悔莫及。1902年,亚伯拉罕·瓦尔德出生于当时的克劳森堡,隶属奥匈帝国。瓦尔德十几岁时,正赶上第一次世界大战爆发,随后,他的家乡更名为克鲁日,隶属罗马尼亚,瓦尔德的祖父是一位拉比,父亲是一位面包师,信奉犹太教,瓦尔德是一位天生的数学家,凭借出众的数学天赋,他被维也纳大学录取。上大学期间,他对集合论与度量空间产生了深厚的兴趣。即使在理论数学中,集合论与度量空司内算得上是极为抽象晦涩难懂的两门课。


但是,在瓦尔德于20世纪30年代中叶完成学业时,奥地利的经济正处于一个非常困难的时期,因此外国人根本没有机会在维也纳的大学中任教,不过,奥斯卡摩根斯特恩(Okar Morgenstern)给了瓦尔德一份工作,帮他摆脱了困境。摩根斯特恩后来移民美国,并与人合作创立了博弈论。1933年时,摩根斯特恩还是奥地利经济研究院的院长。他聘请瓦尔德做与数学相关的一些零活儿,所付的薪水比较微薄。然而,这份工作却为瓦尔德带来了转机,几个月之后,他得到了在哥伦比亚大学担任统计学教授的机会。于是,他再―次收拾行装,搬到了纽约。


从此以后,他被卷入了战争。


在第二次世界大战的大部分时间里,瓦尔德都在哥伦比亚大学的统计研究小组(SRG)中工作。统计研究小组是一个秘密计划的产物,它的任务是组织美国的统计学家为“二战”服务。这个秘密计划与曼哈顿计划(Manhattan Project)有点儿相似,不过所研发的武器不是炸药而是各种方程式。事实上,统计研究小组的工作地点就在曼哈顿晨边高地西118街401号,距离哥伦比亚大学仅―个街区。如今,这栋建筑是哥伦比亚大学的教工公寓,另外还有一些医生在大楼中办公,但是在1943年,它是“二张”时期高速运行的数学中枢神经。在哥伦比亚大学应用数学小组的办公室里,很多年轻的女士正低着头,利用“马前特”桌面计算器计算最有利于战斗机瞄准具锁定敌机的飞行曲线公式。在另一间办公室里,来自普林斯顿大学的几名研究人员正在研究战略轰炸规程,与其―墙之隔的就是哥伦比亚大学统计研究小组的办公室。



但是,在所有小组中,统计研究小组的权限最大,影响力也最大。他们一方面像一个学术部门一样,从事高强度的开放式智力活动,另一方面他们都清楚自己从事的工作具有极高的风险性。统计研究小组组长艾伦沃利斯(W. Allen Wallis)回忆说“我们提出建议后,其他部门通常就会采取某些行动。战斗机飞行员会根据杰克·沃尔福威茨(Jack Wolfowitz)的建议为机枪混装弹药,然后投入战斗。他们有可能胜利返回,也有可能再也回不来。海军按照亚伯·基尔希克(Abe Girshick)的抽样检验计划,为飞机携带的火箭填装燃料。这些火箭爆炸后有可能会摧毁我们的飞机,把我们的飞行员杀死,也有可能命中敌机,干掉敌人。”


数学人才的调用取决于任务的重要程度。用沃利斯的话说,“在组建统计研究小组时,不仅考虑了人数,还考虑了成员的水平,所选调的统计人员都是最杰出的。”在这些成员中,有弗雷德里克·莫斯特勒(Frederick Mosteller),他后来为哈佛大学组建了统计系;还有伦纳德·萨维奇(Leonard Jimmie Savage)a,他是决策理论的先驱和贝叶斯定理的杰出倡导者。麻省理工学院的数学家、控制论的创始人诺伯特·维纳(Norbert Wiener )也经常参加小组活动。在这个小组中,米尔顿·弗里德曼(Milton Friedman )这位后来的诺贝尔经济学奖得主只能算第四聪明的人。


小组中天赋最高的当属亚伯拉罕·瓦尔德。瓦尔德是艾伦·沃利斯在哥伦比亚大学就读时的老师,在小组中是数学权威。但是在当时,瓦尔德还是一名“敌国侨民”,因此他被禁止阅读他自己完成的机密报告。统计研究小组流传着一个笑话:瓦尔德在用便笺簿写报告时,每写一页,秘书就会把那页纸从他手上拿走。从某些方面看,瓦尔德并不适合待在这个小组里,他的研究兴趣一直偏重于抽象理论,与实际应用相去甚远。但是,他干劲儿十足,渴望在坐标轴上表现自己的聪明才智。在你有了一个模糊不清的概念,想要把它变成明确无误的数学语言时,你肯定希望可以得到瓦尔德的帮助。


于是,问题来了。我们不希望自己的飞机被敌人的战斗机击落,因此我们要为飞机披上装甲。但是,装甲会增加飞机的重量,这样,飞机的机动性就会减弱,还会消耗更多的燃油。防御过度并不可取,但是防御不足又会带来问题。在这两个极端之间,有一个最优方案。军方把一群数学家聚拢在纽约市的一个公寓中,就是想找出这个最优方案。


军方为统计研究小组提供了一些可能用得上的数据。美军飞机在欧洲上空与敌机交火后返回基地时,飞机上会留有弹孔。但是,这些弹孔分布得并不均匀,机身上的弹孔比引擎上的多。


关于萨维奇,这里有必要告诉大家他的一些逸事。萨维奇的视力极差,只能用一只眼睛的余光看东西。他曾经耗费了6个月的时间来证明北极探险中的一个问题,其间仅以肉糜饼为食。

飞机部位与平均弹孔数示意图


军官们认为,如果把装甲集中装在飞机最需要防护、受攻击概率最高的部位,那么即使减少装甲总量,对飞机的防护作用也不会减弱。因此,他们认为这样的做法可以提高防御效率。但是,这些部位到底需要增加多少装甲呢?他们找到瓦尔德,希望得到这个问题的答案。但是,瓦尔德给出的回答并不是他们预期的答案。


瓦尔德说,需要加装装甲的地方不应该是留有弹孔的部位,而应该是没有弹孔的地方,也就是飞机的引擎。瓦尔德的独到见解可以概括为一个问题:飞机各部位受到损坏的概率应该是均等的,但是引擎罩上的弹孔却比其余部位少,那些失踪的弹孔在哪儿呢?瓦尔德深信,这些弹孔应该都在那些未能返航的飞机上。胜利返航的飞机引擎上的弹孔比较少,其原因是引擎被击中的飞机未能返航。大量飞机在机身被打得千疮百孔的情况下仍能返回基地,这个事实充分说明机身可以经受住打击(因此无须加装装甲)。如果去医院的病房看看,就会发现腿部受创的病人比胸部中弹的病人多,其原因不在于胸部中弹的人少,而是胸部中弹后难以存活。


数学上经常假设某些变量的值为0,这个方法可以清楚地解释我们讨论的这个问题。在这个问题中,相关的变量就是飞机在引擎被击中后不会坠落的概率。假设这个概率为零,表明只要引擎被击中一次,飞机就会坠落。那么,我们会得到什么样的数据呢?我们会发现,在胜利返航的飞机中,机翼、机身与机头都留有弹孔,但是引擎上却一个弹孔也找不到。对于这个现象,军方有可能得出两种分析结果:要么德军的子弹打中了飞机的各个部位,却没有打到引擎;要么引擎就是飞机的死穴。这两种分析都可以解释这些数据,而第二种更有道理。因此,需要加装装甲的是没有弹孔的那些部位。


美军将瓦尔德的建议迅速付诸实施,我无法准确地说出这条建议到底挽救了多少架美军战机,但是数据统计小组在军方的继任者们精于数据统计,一定很清楚这方面的情况。美国国防部一直认为,打赢战争不能仅靠更勇敢、更自由和受到上帝更多的青睐。如果被击落的飞机比对方少5%,消耗的油料低5%,步兵的给养多5%,而所付出的成本仅为对方的95%,往往就会成为胜利方。这个理念不是战争题材的电影要表现的主题,而是战争的真实写照,其中的每一个环节都要用到数学知识。

瓦尔德拥有的空战知识、对空战的理解都远不及美军军官,但他却能看到军官们无法看到的问题,这是为什么呢?根本原因是瓦尔德在数学研究过程中养成的思维习惯。从事数学研究的人经常会询问:“你的假设是什么?这些假设合理吗?”这样的问题令人厌烦,但有时却富有成效。在这个例子中,军官们在不经意间做出了一个假设:返航飞机是所有飞机的随机样本。如果这个假设真的成立,我们仅依据幸存飞机上的弹孔分布情况就可以得出结论。但是,一旦认识到自己做出了这样的假设,我们立刻就会知道这个假设根本不成立,因为我们没有理由认为,无论飞机的哪个部位被击中,幸存的可能性是一样的。用数学语言来说,飞机幸存的概率与弹孔的位置具有相关性。


瓦尔德的另一个长处在于他对抽象问题研究的钟爱。曾经在哥伦比亚大学师从瓦尔德的沃尔福威茨说,瓦尔德最喜欢钻研的“都是那些极为抽象的问题”,“对于数学他总是津津乐道,但却对数学的推广及特殊应用不感兴趣”。的确,瓦尔德的性格决定了他不大可能关注应用方面的问题。在他的眼中,飞机与枪炮的具体细节都是花里胡哨的表象,不值得过分关注。他所关心的是,透过这些表象看清搭建这些实体的一个个数学原理与概念。这种方法有时会导致我们对问题的重要特征视而不见,却有助于我们透过纷繁复杂的表象,看到所有问题共有的基本框架。因此,即使在你几乎一无所知的领域,它也会给你带来极有价值的体验。


幸存者偏差现象


对于数学家而言,导致弹孔问题的是一种叫作“幸存者偏差”(survivorship bias)的现象。这种现象几乎在所有的环境条件下都存在,一旦我们像瓦尔德那样熟悉它,在我们的眼中它就无所遁形。以共同基金为例。在判断基金的收益率时,我们都会小心谨慎,唯恐有一丝一毫的错误。年均增长率发生1%的变化,甚至就可以决定该基金到底是有价值的金融资产还是疲软产品


晨星公司大盘混合型基金的投资对象是可以大致决定标准普尔500指数走势的大公司,似乎都是有价值的金融资产。这类基金1995~2004年增长了178.4%,年均增长率为10.8%,这是一个令人满意的增长速度。如果手头有钱,投资这类基金的前景似乎不错,不是吗?事实并非如此。博学资本管理公司于2006 年完成的一项研究,对上述数字进行了更加冷静、客观的分析。我们回过头来,看看晨星公司是如何得到这些数字的。2004年,他们把所有的基金都归为大盘混合型,然后分析过去10年间这些基金的增长情况。


但是,当时还不存在的基金并没有被统计进去。共同基金不会一直存在,有的会蓬勃发展,有的则走向消亡。总体来说,消亡的都是不赚钱的基金。因此,根据10年后仍然存在的共同基金判断10年间共同基金的价值,这样的做法就如同通过计算成功返航飞机上的弹孔数来判断飞行员躲避攻击操作的有效性,都是不合理的。


如果我们在每架飞机上找到的弹孔数都不超过一个,这意味着什么呢?这并不表明美军飞行员都是躲避敌军攻击的高手,而说明飞机中弹两次就会着火坠落。博学资本的研究表明,如果在计算收益率时把那些已经消亡的基金包含在内,总收益率就会降到134.5%,年均收益率就是非常一般的8.9%。


《金融评论》(Review of Finance )于2011年针对近5000只基金进行的一项综合性研究表明,与将已经消亡的基金包括在内的所有基金相比,仍然存在的2641只基金的收益率要高出20%。幸存者效应的影响力可能令投资者大为吃惊,但是亚伯拉罕·瓦尔德对此已经习以为常了。


素材来自《魔鬼数学:大数据时代,数学思维的力量》



【今日机器学习概念】

Have a Great Definition

登录查看更多
0

相关内容

【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
224+阅读 · 2020年3月22日
【哈工大】基于抽取的高考作文生成
专知会员服务
36+阅读 · 2020年3月10日
《代码整洁之道》:5大基本要点
专知会员服务
49+阅读 · 2020年3月3日
【机器学习课程】机器学习中的常识性问题
专知会员服务
73+阅读 · 2019年12月2日
NLP模型超越人类水平?你可能碰到了大忽悠
人工智能学家
6+阅读 · 2019年9月10日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
机器学习入门 | 刷新你三观的高数和线代教程
大数据技术
21+阅读 · 2019年3月22日
最新版:本科、硕士和博士有何区别?
德先生
6+阅读 · 2018年6月10日
机器学习应该准备哪些数学预备知识?
AI100
4+阅读 · 2017年11月26日
难?不难?机器学习套路就这三个!
聊聊架构
3+阅读 · 2017年10月25日
大学数学不好,或许是数学教材的锅?
算法与数学之美
15+阅读 · 2017年8月1日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关VIP内容
相关资讯
NLP模型超越人类水平?你可能碰到了大忽悠
人工智能学家
6+阅读 · 2019年9月10日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
机器学习入门 | 刷新你三观的高数和线代教程
大数据技术
21+阅读 · 2019年3月22日
最新版:本科、硕士和博士有何区别?
德先生
6+阅读 · 2018年6月10日
机器学习应该准备哪些数学预备知识?
AI100
4+阅读 · 2017年11月26日
难?不难?机器学习套路就这三个!
聊聊架构
3+阅读 · 2017年10月25日
大学数学不好,或许是数学教材的锅?
算法与数学之美
15+阅读 · 2017年8月1日
Top
微信扫码咨询专知VIP会员