贝叶斯法则:预测未来

2018 年 7 月 12 日 算法与数学之美

本文节选自《算法之美:指导工作与生活的算法》

中信出版集团,2018年05月出版


人类获得的所有知识都是不确定的、不准确的和不全面的。

——伯特兰·罗素

明天太阳会照常升起。你可以用你的一切来打赌太阳会出来。

——安妮


1969年,J. 理查德·戈特三世在普林斯顿攻读天体物理博士学位之前,他去欧洲旅行了一趟。他看见了柏林墙,那是8年前建成的。站在墙的影子下,这仿佛是冷战的一个鲜明象征,他开始思索这墙会将东德和西德地区继续分割多久。


从表面上看,试图做出这种预测有些荒谬。即使撇开地缘政治的不可预测性不说,这个问题仅在数学上似乎就很可笑:因为它试图从一个单一数据点进行预测。


但是,尽管这看起来很可笑,但我们总是会根据需要做出这样的预测。你到了一个外国城市的公共车站,也许其他游客已经站在那里等了7分钟。下一班车什么时候到?继续等待是否值得?如果是这样的话,在放弃之前你应该再那等多久?


或者你的一个朋友已经和某人约会了一个月,希望得到你的建议:邀请他们一起参加即将到来的人的婚礼是否太早?这种关系已经有了一个良好的开端,但是什么时候开始制订计划比较合适呢?


谷歌的研究部主任彼得·诺维德曾进行过一次题为“数据的不合理有效性”的著名演讲,该演讲深究了“数十亿琐碎的数据点最终如何能被理解”。媒体不断告诉我们,我们生活在一个“大数据时代”,计算机可以筛选这数十亿的数据点并发现一些肉眼看不到的细节。但跟日常生活联系最密切的问题往往是另一种极端。我们的生活充满“小数据”,我们就像看到柏林墙的戈特一样,也就是通过一个单一的观察,做一个推论。


那么我们一般怎么做呢?我们又应该怎样做?

故事发生在18 世纪的英国,那时,有一个研究领域对伟大的数学思想家来说是不可抗拒的(对那些神职人员也是如此),那就是赌博。


贝叶斯牧师的倒推理

因此,如果我们相信过去的经验,并把它作为我们判断未来的标准,那这些标准就一定不是确定的。

——大卫•休谟


250 年前 ,贝叶斯牧师就很重视小数据预测问题,他来自英国迷人的温泉城镇坦布里奇韦尔斯,是一位长老会的牧师。


贝叶斯设想,如果我们买10 张新的、不熟悉的抽奖彩票,其中有5 张中奖,那么要估计中奖概率就似乎相对容易:5/10,或50%。但是,如果我们只买了一张彩票,并赢得奖品呢?我们真的认为中奖的概率就是1/1,或是100%的?这似乎过于乐观,不是吗?如果是这样的话,那中奖概率应该是多少?我们应该猜多少呢?


对于那些曾在不确定性推理历史上产生如此重大影响的人来说,贝叶斯自己的故事也具有讽刺的不确定性。他出生于1701年或者1702年,出生地是英国的赫特福德郡,或是伦敦。在1746年,或1748年,或1747年,抑或是1749年,他写了一篇在数学界最具影响力的论文,他却未将它发表,并继续做其他事情。


在这两个事件之间我们有了更多的把握。作为牧师的儿子,贝叶斯去爱丁堡大学学习神学,并像他父亲一样被任命为牧师。他对数学和神学感兴趣,并在1736年为牛顿全新的 “微积分”理论写了一篇慷慨激昂的辩护书,以回应乔治伯克利主教对牛顿的攻击。这使他在1742年当选为皇家学会的成员,并被赞誉为“擅长几何、数学和哲学学习的绅士”。


1761年贝叶斯去世后,他的朋友理查德·普莱斯被要求整理他的数学论文,看是否有可发布的内容。一篇文章引起了他的兴趣,并令他特别兴奋——他说这篇文章“极为出色,值得保存”。这篇论文就论述了本文所讨论的彩票问题:


让我们想象一个人在抽奖的时候,对会不会中奖完全不知道,也不知道中奖和无奖的比例如何。让我们进一步假设,他要从他之前了解到的无奖的数量来推测相对的中奖数量,并询问他在这些情况下能做出什么合理的结论。


贝叶斯的关键见解是,试图使用我们看到的中奖和未中奖彩票来分析彩票来源于整体彩票池的方法,本质上是在倒推。他说,要做到这一点,我们需要先用假设向前推理。换句话说,我们首先需要确定,如果各种可能场景都成真的情况下,我们中奖的可能性有多少。这个被现代统计学家称为“可能性”的概率给了我们解决问题所需要的信息。


例如,假设我们买了三张彩票,三张都中奖了。现在,如果这种彩票中奖率特别高,所有彩票都能中奖,那我们的买三中三的中奖率就肯定会一直发生,在这种情况下就是100% 的概率。但如果只有一半的彩票能中奖,那我们三张彩票的中奖率就是1/2×1/2×1/2, 也就是1/8。如果1 000 张彩票只有一张能中奖,那么我们的中奖率将是1/1 000×1/1 000×1/1 000,也就是1×10–9。


贝叶斯认为,因此我们应该判断如何能让所有彩票都尽可能中奖而不是一半能中奖,或者尽可能使一半的彩票中奖而不是1/1 000。也许我们生来便拥有这种直觉,但贝叶斯的逻辑思维却给我们提供了为这种直觉定量的方法。在同等条件下,我们应该想象成所有彩票都中奖的概率比一半中奖的概率要高8 倍,因为我们在这种情况下买的彩票正好是8 倍多的中奖概率(100% 与1/8)。同样的,一半的彩票中奖的概率正好是1 000 张中一张中奖的1.25 亿倍,我们已经通过比较1/8 和1×10–9 而得知其中的原因。


这是贝叶斯论证的关键所在。从假设的过去向前推理,并奠定了理论基础,让我们可以向后找到最大的可能性。


这是一个巧妙和创新的方法,但它对抽奖问题没能提供一个完整的答案。普莱斯在向皇家学会提交贝叶斯的研究结果时,他能够确定,如果你买了一张彩票并中奖了,那么至少有一半的彩票都能中奖的概率是75%。但是,考虑概率的概率问题会让人有点儿头晕。更重要的是,如果有人在催促我们:“好吧,但是你认为彩票的中奖率到底是多少?”我们仍然不知道该说什么。


如何将所有可能的假设提取到单一的期望值,这一问题将在短短几年后由法国数学家皮埃尔·西蒙·拉普拉斯解答。


拉普拉斯定理

1749年,拉普拉斯生于诺曼底,他父亲送他到一所天主教学校,并希望他成为神职人员。拉普拉斯继续在卡昂大学学习神学,他不像贝叶斯那样一生都能平衡对神学和科学的奉献,因此他最终放弃了做牧师,而专攻数学。


1774年,在完全不知道贝叶斯以前做的工作的情况下,拉普拉斯发表了一篇雄心勃勃的论文,名为“事件原因的概率论”。在这篇论文中,拉普拉斯终于解决了如何从观察到的效果向后推理并找出可能的原因这一问题。


如我们所见,贝叶斯找到了一种比较两种假设的相对可能性的方法。但是在彩票这一问题上,这里的假设几乎就是无穷的——每一个中奖彩票可能的比例。利用微积分这一曾备受争议却受到贝叶斯坚决拥护的数学学科,拉普拉斯能够证明这个巨大范围的可能性,这可以提取成一个单一的预估值和一个非常简洁的数字。他表示,如果我们提前真的不知道彩票的情况,然后当我们第一次买的三张彩票中的一张彩票中奖了,我们可以推测奖池里彩票的总中奖比例为2 / 3。如果我们买三张彩票,都中奖了,那我们可以推测总中奖比例正好是4/5。事实上,如果买n 张彩票共w 张中奖,那么中奖率就是中奖数加1,除以所购买的数目加2,即w+1/n+2。


这种令人难以置信的简单的方法估计概率的简单方法被称为拉普拉斯定律,它很容易就能适用于任何你需要通过历史事件来评估概率的情况。如果你做了10 次尝试,其中有5 次成功,拉普拉斯定律估计你的整体成功概率是6/12 或50%,这符合我们的直觉。如果你只试一次便取得成功,拉普拉斯给的估计是2/3,这比假设你每次都赢更合理,也比普莱斯的观点更具可操作性(它告诉我们,50% 或更大的成功概率有75% 的元概率)。


拉普拉斯继续将他的统计方法应用到广泛的时间问题上,包括评估男孩和女孩的出生率是否真正平均。(他发现,男婴其实比女婴的出生率稍高。)他还写了关于概率的哲学论文,可以说这是给大众读者的第一本关于概率的书,也是最好的概率书之一,此书奠定了他的理论基础并讲述了这些理论在法律、科学与日常生活上的应用。


拉普拉斯定律为我们在现实世界中面对小数据时提供了第一种简单的经验法则。即使我们只进行了一些或一次观察,它也都能给予我们实际指导。想知道你的车晚点的概率吗?你的垒球队会赢吗?数一数过去已经发生的数量再加一,然后除以可能的机会数再加2。拉普拉斯定律的精髓就在于无论我们有一个单独的数据点或数以百万计的数据,它都同样适用。小安妮相信太阳明天会升起是有道理的,这句话告诉我们:地球已经连续看到太阳上升约1.6 万亿天,在下一次的“尝试”中看见太阳不升起来的机会,几乎没有可能。


贝叶斯法则与先验信念

可以想象,所有这些假设都是一致并可以想象的。为什么我们要偏向其中一种,而这一种并不比其余的更一致或可以想象?

——大卫•休谟


拉普拉斯也考虑了另一种修饰贝叶斯理论的方法,这将被证明是至关重要的:那就是如何处理那些比其他假设可能性更大的假设。例如,买彩票时,99%的中奖率是有可能的,但我们可以假设中奖率更有可能只有1%。这一假设应该体现在我们的估算过程中。


说得更具体点儿,例如有一个朋友给你看两个不同的硬币。一个是正常的“公平”硬币,正反两面都具有50–50的概率,另一种是两面都是头像的硬币。他把它们扔到一个袋子里,然后随意地拿出一个,他将硬币旋转一次:是头像。你认为你的朋友旋转的是哪个硬币?


贝叶斯的反向工作方案使这个问题变得简单。那个公平硬币转到头像的概率是50%,另一个双头硬币转到头像的概率是100%。因此,我们可以自信地断言,转到这个硬币的概率是100%除以50%,或朋友掏出双头硬币的概率是它的两倍。


现在考虑下面一次的旋转。这一次,朋友给你看9个公平硬币和一个双头像硬币,把所有10枚硬币都装进袋子,随机抽取一个,并翻转它:还是头像。现在你怎么想?这次是公平硬币还是双头像硬币?


拉普拉斯预料到了这一点,而且答案又一次简单得令人印象深刻。如果和以前一样,一枚公平硬币转到头像的概率正好是一枚双头像硬币的一半。但现在,首先公平的硬币被抽到的概率就是双头像硬币的9 倍。事实证明,我们可以把这两个不同的概率都考虑进去,并把它们相乘:这就是说,你朋友持有一个公平的硬币的概率是双头像硬币的4.5 倍。


描述这种关系的数学公式,将我们先前持有的观念和我们眼前的证据结合起来,就形成了后来的贝叶斯法则。有点儿讽刺的是,真正重要的工作却是由拉普拉斯完成的。它提供了一个非常简单的解决方案来如何处理现有的信念与观察到的证据:将它们的概率相乘。


值得注意的是,有一些预先存在的信念,在计算这个公式时至关重要。如果你的朋友只是走近你说:“我从这个袋子里翻出了一枚硬币,最后转出头像那面。你认为这是一枚公平硬币的概率有多大?”除非你最开始就对袋子里是什么硬币有一定了解,否则你完全无法回答这个问题。(当你对任何一个概率都无从得知的时候,你便无法将两个概率相乘),在硬币翻转之前,你对“袋子里”是什么的感觉,或是说在你看到任何数据之前,每个假设的概率都是真实可能的,这就是所谓的先验概率,或者简称为“先验”。贝叶斯法则总是需要一些先验,即使它只是一个猜测。有多少枚双头像硬币?抽到他们的概率有多大?那么,你的朋友有多大可能是一个骗子呢?


贝叶斯法则依赖于先验概率,这一点在历史上的某些时刻被认为是有争议的、有偏见的,甚至是不科学的。但在现实中,我们的头脑实际上很少会进入一个完全空白甚至停滞的状况。


当你对先验概率有一定的预估时,贝叶斯法则也适用于各种各样的预测问题,无论它们是大数据类型还是更常见的小数据排序。计算彩票获奖概率或扔硬币的概率仅仅是开始。由贝叶斯和拉普拉斯研究出的方法可以在任何时候帮助我们,尤其是当我们遇到不确定性或数据不足的问题和工作时。这正是我们试图预测未来时所面对的情况。


哥白尼原则

预测本就是一件难事,预测未来尤其如此。

——谚语


当理查德·戈特看到柏林墙时,他问了自己一个非常简单的问题:我在哪?也就是说,在这一人工建筑存在的全过程中,我是否恰好已经到达了呢?简而言之,他是在从时间角度问一个空间问题,而这一问题正是在400年前深深吸引着天文学家尼古拉·哥白尼的问题:我们在哪?地球在宇宙的什么位置?与前人不同,哥白尼激进地以为地球不是宇宙的中心,也就是说地球没有什么特别的。戈特决定采取同样的关于时间的分析步骤。


他设想,他到达柏林墙的那一刻并不特别,因为这只是柏林墙整个历史中的一瞬。如果有任何一个时刻都有同样的可能性,那么平均来说,他的到来应该是在一个精确的中间点(因为他有50%概率是在此之前到来,或50%的概率是在此之后)。更普遍的是,除非我们确定我们在某个特定时间现象中出现的特定中间点。a如果我们假设我们到达的中间点有精确的时间,那么对于它在未来还可以持续多久的最佳猜测就变得很明显:确切地说就是它已经存在的时间。戈特看到柏林墙时已经建成8 年了,所以他最好的猜测是,它将再存在8 年。(最终,这个数字是20 年。)


这个简单的推理,被戈特称为哥白尼原则,它可以得出一个简单的算法,能为各类事件做出预测判断。在没有任何先入为主的预测时,我们不仅可以用它来获得对柏林墙终结时间的预测,同时也可以预测任何其他短期和长期现象。哥白尼原则预测道,美利坚合众国作为一个国家将一直持续到2255 年左右,谷歌将持续到大约2032 年,你与你的朋友一个月前开始的一段关系将可能再持续约一个月(也许你该告诉他不要参加刚收到的婚礼邀请呢)。同样,它告诉我们要持怀疑态度,例如,《纽约客》杂志封面是一个人拿着一个6 英寸的智能手机,上面有大家熟悉的网格正方形应用程序图标,标题为“2525”。但这是令人怀疑的。据我们所知,智能手机刚诞生10 年,哥白尼原则告诉我们,它不可能出现在2025 年,更别说5 世纪后了。到2525年,即使还有一个纽约市存在,也会让人感到吃惊。


更实际地说,如果我们正在考虑一份建筑工地的工作,他们的标牌表明“上一次工程事故发生在7 天前”,我们可能会想离开,除非这是一份我们计划做得特别短的工作。如果一个城市的公交系统承担不起可以告诉乘客下一班车什么时候会到来这一非常有用却很昂贵的实时提醒系统的话,哥白尼原则表明,可能有一个更简单也更便宜的替代品。那就是简单地显示前一辆公交车到达此处的时间距离现在有多久,这可以为判断下一辆公交车到来的时间提供一个实质性的提示。


但是哥白尼原则就一定正确吗?当戈特在《自然》杂志上发表了他的猜想之后,该杂志收到了很多重要信件。当我们尝试将规则应用到一些比较熟悉的例子时,很容易理解这是为什么。如果你遇到一个90岁的男子,哥白尼原则预测他会活到180岁。同时,每个6岁的男孩都会被预测将在12岁时早逝。


要理解为什么哥白尼原则是合理的,以及为什么它有时不合理,我们需要回归到贝叶斯法则。因为,哥白尼原则尽管具有明显的简单性,但其的确是贝叶斯法则的一个实例。


贝叶斯与哥白尼

在预测未来时,如柏林墙的寿命这类问题,我们需要评估的假设是所有手头上掌握的现象的持续时间:它会持续一个星期,一个月,一年,还是十年?正如我们已经看到的,要应用贝叶斯法则,我们首先需要给每个现象的持续时间分配一个先验概率。事实证明,哥白尼原则正是应用贝叶斯法则并使用了所谓的无信息先验的结果。


起初,这似乎是一个矛盾。如果贝叶斯法则总是要求我们明确事先的预测和想法,我们又怎么能告诉它,我们没有任何预测结果呢?在彩票抽奖的情况下,为无知进行辩护的一个方法就是被称为“统一先验”的方法,这就是认为每个中奖彩票的比例都是相同的。在柏林墙这一例子中,无信息先验意味着:我们对将要预测的时间范畴一无所知:墙可能会在接下来的5 分钟或5 年后倒塌。


除了这些无信息先验,如我们所见,我们供应给贝叶斯法则的唯一一部分数据,事实上就是我们到达柏林墙的时候,它已经存在了8 年。任何预测它小于8 年寿命的假设都可以被排除,因为这些假设不能解释我们这里的情况。(同样的,一枚双头像硬币就可以排除字那面的可能性。)任何超过8 年的预测都是有可能的,但是如果柏林墙要存在100 万年,那它将是一个很大的巧合,表明我们几乎是接近它存在的最初起点。因此,即使特别长的寿命不能排除,但它也不大可能出现。


当贝叶斯法则与所有这些概率结合——更有可能的短时限就拉低了平均预测,可能性更小但也有一定可能性的长时限又将其拉高,哥白尼原则便出现了:如果我们要预测某个事物还将持续存在多久(在对它没有其他任何了解时),我们可以做出的最好的猜测就是,它将再持续已经存在的时间。


事实上,戈特并不是第一个提出类似哥白尼原则的人。20 世纪20 年代中期,贝叶斯统计学家哈罗德·杰佛利曾考虑仅仅通过一辆城市有轨电车的序号来确定一个城市有轨电车的数量,并得出了相同的答案:该数字的双倍。一个类似的问题出现得更早,在第二次世界大战期间,同盟国试图估计由德国制造的坦克数量。他们通过所捕获的坦克的序列号,在纯数学估计的基础上进行预测,得出的结果是德国每月生产246 辆坦克,而通过广泛的(高度危险的)空中侦察所获得的估计表明,这个数字更接近于1 400。而战后,德国记录显示的真实数字是:245。


在认识到哥白尼原则是无信息先验基础上的贝叶斯法则之后,就可以回答很多关于其有效性的问题。哥白尼原则在我们什么都不知道的情况下似乎是合理的、准确的,如在1969年看到的柏林墙,我们不确定什么时间范畴是合适的。同时,在我们对某一对象的确有所了解时,就会感觉这是完全错误的。预测一个90岁的人能活到180岁是不合理的,这恰恰是因为我们关于人类寿命已经了解了很多——在这种情况下,我们就可以预测得更好。我们给贝叶斯法则带来的先验信息越丰富,我们便能从中得到越有用的预测。


真实世界的先验……

从广义上讲,世界上有两种类型的事物:倾向于(或围绕)某种“自然”价值的事物,以及与之相反的事物。


人类的生命跨度显然是属于前一类。它大体遵循所谓的“正态”的分布,也被称为“高斯”分布(这是以德国数学家卡尔·弗里德里希·高斯命名的),同时因其分布的形状特征也被形象地称为“钟形曲线”。这种形状能很好地表现人类的寿命,例如,美国男性的平均寿命集中在76岁左右,曲线顶端的两边呈现急剧下降的趋势。正态分布往往都有一个适当的比例:一位数的寿命往往会被认为是悲惨的,三位数的寿命是非凡的。自然世界的许多其他事情也都呈现正态分布的趋势,从人的身高、体重、血压,到城市正午的温度,或是果园的果实直径。


世界上有许多事物看起来似乎并不呈现正态分布,但这只是因为你没有长远地看。例如,美国一个城镇的平均人口是8 226 人。但是如果你要按人口统计该城镇数量图表,你就不会看到像钟形曲线那样长远才能实现的东西。还有很多小镇的人口远不足8 226 人,同时,某些重要城镇的人口会比平均人口要大得多。这种模式就是所谓的“幂律分布”,也被称为“无标度分布”,因为他们可以在多个尺度的范围表达数量:一个城市能有几十,数百,数千,数万,数十万,甚至数百万名的居民,所以我们不能以一个单一的数值来定义一个“正常”的城镇有多大。


幂律分布可以描述在日常生活中一系列与城镇人口分布类似的现象:大多数都低于平均值,少数是超过的。电影的票房收入,其范围可以是从4~10 位的数字,这是另一个例子。有些电影根本挣不了那么多钱,但偶尔也有像《泰坦尼克号》这样的高票房电影。


事实上,一般来说,货币是一个充满权力法则的领域。幂律分布可以描述人民的财富和人民的收入。例如,美国的人均收入是55 68美元,但由于收入大致是呈幂律分布的,这样我们便会得知,平均值以下的人会比平均值以上的要多,而平均值以上的人的收入可能高得几乎偏离了图表。事实也的确如此:美国2/3 的人口收入低于平均收入,但前1% 的人的收入几乎是平均水平的10 倍。这1% 中的前1%的人的收入又是其余99% 的10 倍。


人们常常感叹“富人会变得更富有”,实际上“偏好依附”的过程是产生幂律分布的最可靠的方法之一。我们使用最多的网站往往就是最有可能获得导入链接的网站,拥有最多人追随的网络红人就是最有可能获得新支持者的人,最有声望的公司就是最有可能吸引新客户的公司,最大的城市就是最有可能吸引新居民的城市。在这每一种情况下,幂律分布都会得出这个结果。


贝叶斯法则告诉我们,在基于有限的证据进行预测时,很少有事情是和好的先验一样重要的,也就是说,我们期望证据可以从分布结果中得出。因此,良好的预测最开始要有良好的直觉,要能感觉到我们何时在处理一个正态分布,何时在处理一个幂律分布。事实证明,贝叶斯法则为我们处理这些情况各提供了一个简单但显著不同的预测经验法则。


他们的预测规则

你是指“这会一直”朝好的方向发展吗?

——本•勒纳

为了验证哥白尼原则,我们看到,当给贝叶斯法则一个无信息先验时,它会一直预测事物的总寿命为目前寿命的两倍。事实上,无信息先验的可能性有很宽泛的尺度,柏林墙可能继续存在几个月或几千年,这个尺度就是幂律分布。对于任何幂律分布,贝叶斯法则表明,一个合适的预测策略就是相乘法则:将迄今观察到的数量乘以一些常数。对于无信息先验,这个常数一般是2,哥白尼预测的方法由此得来;在其他幂律的情况下,所乘的数将取决于你工作的精确分布。例如,对于电影票房,它正好是1.4。所以,如果你听到一部电影到目前为止已经赚了600万美元,那么你可以猜测,它总共将赚840万美元。如果它现在赚了9 000万美元,那么可以预计的最高票房将是1.26亿美元。


幂律分布不能表明它们所描述的现象的自然范畴,这就直接导致了相乘法则的出现。因此,唯一能给我们的预测提供一些关于范畴的想法的就是我们所拥有的单一数据点,比如柏林墙已经存在8 年了。单一数据点的值越大,我们可能要处理的范畴也就越大,反之亦然。当然这种情况也是有可能的:这部电影的票房现在是600 万美元,而实际上它只是在第一个小时票房惊人,它更可能是一个只有几百万美元票房的电影。


另一方面,当我们将正态分布作为贝叶斯法则的先验时,我们会得到一个非常不同的指导。我们会得到一个“平均”规则,而不是相乘法则:使用分布的“自然”平均数作为指导。例如,如果有人还没达到平均寿命,那么就直接将其年龄预测为平均值。随着他们的年龄增长并超过平均水平,就预测他们还会再活几年。遵循这一规律为90岁和6 岁的两个人给出的合理预测年龄分别为94 岁和77 岁。(6 岁的孩子的预测寿命比76 岁的平均寿命略高是因为他已经顺利度过了婴儿期:这样我们就知道他不处于分布的尾端。)


电影的时长就像人类的寿命,也遵循正态分布:大多数电影都在100 分钟左右,某些特殊的电影时长处于分布的两端。但并不是所有的人类活动都是这样的。诗人迪安·杨曾经说过,每当他听一首带编号的诗时,如果读者开始念第四节,他的心就会一沉:如果有三个以上的部分,杨就会重新开始,静坐细听。事实证明,杨的沮丧完美体现了贝叶斯法则。通过对诗的分析可发现,它不同于电影的时长,诗歌更接近于幂率分布而不是正态分布:因为大部分诗是短的,除了某些史诗。所以说到诗歌,首先你要确保有一个舒适的座位。正态分布的东西似乎太长了,最后必然会很快结束。但幂律分布的东西存在的时间越长,你可以预测它继续下去的时间就越长。


在这两个极端之间,生活中实际上还有第三种事物:那些不具有更大或更小可能性结束的事物,只因为他们已经持续存在了一段时间。有时候事情是简单的、不变的。丹麦数学家瓦格纳·厄兰研究了这种现象,他将独立事件之间的间隔形式化并推导出带有他名字的函数:厄兰分布。这条曲线的形状不同于正态分布或幂律分布:它有一个类似翅膀的形状,峰值上升较缓,尾部下降的趋势比幂律分布得快,但比正态分布得缓。在20世纪初,他为哥本哈根电信公司工作,用这种分布曲线来模拟在电话网络中连续通话的时间。自那以后,厄兰分布也被用于城市规划以及汽车和行人交通的建设模型中,并被网络工程师在设计互联网的基础设施时使用。自然世界中存在多个维度,其中发生的事件彼此也是完全独立的,它们之间的间隔从而就落在了厄兰曲线上。放射性衰变就是一个例子,这意味着厄兰分布完美地预测了盖革计数器的下一次提示声何时会发出。其在描述例如政客在众议院的任职时间这类的人类活动时也表现不俗。


厄兰分布给出了第三种预测法则——相加法则:总是预测事物只会再持续一个常量。我们经常听到的“只需5分钟!……(5分钟后)再给我5分钟!”这往往表现了人们的某种特征,比如说,当一个人准备离开房子或办公室,或完成一些任务的最后时间,这似乎预示着在对现实做出估计时可能出现的一些慢性故障。不过,在一个人不符合厄兰分布的情况下,无论如何,这种话都可能是正确的。


例如,如果一个赌场纸牌爱好者告诉他不耐烦的配偶,他会在赢得一次21 点后就停手(赢的概率约为20∶1),他会很高兴地预测:“我再买20 次就会赢了!”20 次后她又回来,问他要让她再等多久,那么,他的答案将是不变的:“我再买大约20 次就会赢!”这听起来像是我们这位不懈的赌鬼已经进入短期记忆丧失模式了,但事实上,他的预测是完全正确的。事实上,无论他们过去或目前的状态是怎样的,分布结果会产生相同的预测,这一结果被统计学家称为“无记忆性”。


这三个非常不同的最佳预测模式——相乘法则、平均法则和相加法则都是通过将贝叶斯法则应用到幂律、正态和厄兰分布上得出结果的。因为这些预测的出现,这三种分布也给我们提供了不同的指导,让我们知道对某些事件应该有多惊讶。


在幂律分布中,某个事物已经存在的时间越长,我们可以预测它继续存在的时间也就越长。因此,幂律事件让我们等待的时间越长,就会让我们更加惊奇,尤其在它发生前的一刻。一个国家、一个公司或一个机构,年复一年地变得更加强大,所以当它崩溃时总是令人震惊。


在正态分布中,如果事件提前发生就会令人惊讶,因为我们期望它们达到平均水平,但当它们推迟发生时不会如此。的确,到了这一点,它们似乎推迟发生了,所以我们等待的时间越长,我们就会越期待。


在厄兰分布中,通过定义的事件无论何时发生都不会给我们带来更多或更少的意外。任何事情的状态都有可能结束,不管它已经持续了多久。毫无疑问,政治家总是会对他们下一次的选举进行准备。


赌博的特点类似于稳态预期。例如,如果你所等待的轮盘赌注的胜利是呈正态分布的,那么平均法则将适用于此:在一个坏运气后,它会告诉你,你的号码应该会随时中奖,在输了更多次之后会更快出现。(在这种情况下,它的影响会持续到下一次胜利,然后停止。)相反,如果你等待的胜利呈现幂律分布,那么相乘法则会告诉你胜出盘会一次接着一次出现。(在这种情况下,如果你这局胜出了就应该继续下注,如果长时间没有胜出就该停手。)然而,当面对无记忆分布时,你就进退两难了。相加法则告诉你,现在赢的机会和一小时前一样,一小时后也如此。一切都没有什么变化。你没有因为长时间的等待而得到大奖,也没有一个转折点会告诉你何时应该停止你的损失。在电影《赌棍》中,肯尼·罗杰斯提出了一个著名的建议,他说,你必须“知道什么时候走开,或知道什么时候继续”,但对于无记忆分布而言,没有一个绝对正确的退出时间。这可能就是为什么这些游戏会让人上瘾的部分原因。


知道你所面对的是什么样的分布十分重要。当哈佛大学的生物学家和作家斯蒂芬·杰伊·古尔德发现自己得了癌症后,他的第一个念头就是去阅读相关的医学文献。然后他发现为什么他的医生会劝阻他这样做:患他这种癌症的病人有一半在确诊8 个月内死亡。


但是这一个统计数字(8 个月)并没有告诉他任何关于幸存者的分布。如果这是一个正态分布,那么平均法则将给出一个相当明确的预测,告诉他还可以活多久:约8 个月。但是,如果它是幂律分布,尾部延伸到右侧,那么情况就会大不相同:相乘法则会告诉他,他活得越久,就会有越多的证据证明他能活得更长。进一步阅读后,古尔德发现:“分布确实是强烈右偏,长(但比较小的)尾巴延长数年以上,都超过8个月的中位数。我看不出我为什么不应该待在那条小尾巴上,我长长地松了一口气。”古尔德在确诊后又活了20年。


小数据与思维

三个预测法则——相乘、平均和相加适用于日常生活的各个方面。在这种情况下,人们一般都非常善于使用正确的预测法则。汤姆在读研究生时,和麻省理工学院的乔希·特南鲍姆一起进行了一个实验,实验要求人们对生活中的各种常量进行预测,如人类的寿命、电影的票房以及众议院议员任职时间等,每个问题只提供一条信息:现年龄、现票房或现任职时间。然后,他们比较了人们所预测的结果和应用贝叶斯法则的结果。


事实证明,人们所做的预测与贝叶斯法则所得出的预测非常接近。直觉上,人们做出不同类型的预测也是遵循在现实世界中的不同分布——幂律、正态和厄兰分布。换句话说,虽然你可能不知道或不清楚某种情况是需要用相乘法则、平均法则,还是相加法则,但你每天做的预测往往隐含在这些分布中,它反映了日常生活中出现的不同情况,以及不同的行为方式。


根据我们对贝叶斯法则的了解,这一出色的人类表现显示了可以帮助我们进行预测的重要因素。小数据是大数据的变相。往往,我们能从少量的或一个单一的观察结果得出正确预测结果的原因是,我们在这方面的先验如此丰富。不管我们是否知道,我们似乎已经在头脑中储存下惊人准确的先验,例如关于电影的票房和时长、诗的长度,以及任职时间,更不用说人类的寿命。我们不需要特意收集这些先验,因为我们从这个世界中不停地吸收着它们。


事实上,就整体而言,人们的直觉似乎接近于贝叶斯法则的预测,也可以将各种先验分布逆向转换,即使这很难得到权威的真实数据。例如,对客户服务保持不变是人类经验中一个相当常见的一面,但没有公开的数据集表明好莱坞票房收入的保持时间。但是,如果人们是通过他们的经验进行预测,我们就可以使用贝叶斯法则,通过挖掘人们的期望对世界进行间接探测。当汤姆和乔希要求人们从一个单一的数据点来预测保持时间时,结果表明受试者使用的是相乘法则:人们预计的总等待时间是他们等待时间的一倍多。这与将幂律分布作为先验相一致,其中广泛的尺度也是可能的。只希望你不要因为等待时间而终结在“泰坦尼克号”上。在过去的10 年中,这样的方法使认知科学家能够从视觉、语言等各个领域识别人类的先验分布。

然而这里有一个关键的警示。在我们没有良好先验的情况下,我们就无法很好地预测。例如,在汤姆和乔希的研究中有一个主题,人们的预测在这个主题上全都系统地偏离了贝叶斯法则,那就是预言埃及法老统治的长度。(恰巧,法老王的统治遵循厄兰分布。)在这个问题中,人们只是没有足够的日常接触以产生一个直观的感觉范围的价值观,所以他们的预测肯定也十分困难。准确的预测需要充足的先验知识。


这具有许多重要的含义。我们的判断背叛了我们的预期,我们的期望又背叛了我们的经验。我们对未来的计划揭示了我们生活的世界以及我们自己经历过的方方面面。

我们的预测体现出我们自己


20世纪70年代初期,沃尔特·米歇尔在其著名的“棉花糖实验”中曾试图分析延迟满足的能力是如何随着年龄的增长而发展的。在斯坦福大学的一所幼儿园里,研究者对一组3~5岁的孩子进行了意志力测试。每一个孩子面前都会出现一种美食,如棉花糖,并被告知参与实验的成人马上要离开一会儿。如果他们想吃那些糖,可以马上吃。但是,如果他们忍着不吃等到实验者回来,便会得到多一颗糖。


有些孩子由于抵制不了美食的诱惑,就立即吃了。有些孩子坚持了整整15分钟,直到实验者返回,并得到了两颗糖。但也许最有趣的就是那些等待了一会儿但后来还是没忍住吃掉糖的孩子。


在这种情况下,这些孩子在努力抗争,抵制诱惑,但最终还是败下阵来,失去了额外的棉花糖,这被解释为体现出一种非理性。如果你要屈服,为什么不立即屈服并免受折磨?但这完全取决于孩子认为自己处于什么样的状况。正如宾夕法尼亚大学的乔·麦奎尔和乔·凯布尔所指出的,如果需要大人回来的时间呈幂律分布(逾期缺席意味着比预想的等待时间更长),那么在某个时候减少损失就是完美决定。


换句话说,抵制诱惑的能力至少部分取决于预期而不是意志力。如果你预测大人会在很短的时间后回来(有点类似正态分布),那么你就应该能够坚持下去。平均法则表明,经过痛苦的等待,要做的事情还是在那里:实验者应该随时会返回。但是,如果你不知道消失的时间会有多长(与幂律分布一致),那么这就是一场艰苦的战斗。相乘法则表明,现在漫长的等待还只是未来漫长等待的开头。


这次棉花糖实验后的几十年,沃尔特·米歇尔和他的同事们又重新观察当时的参与者在后来的生活中表现如何。令人惊讶的是,当时等到两颗糖的孩子长大后比其他人更成功,甚至他们的学术能力评估测试成绩也更高。如果棉花糖实验测试的是意志力,那么这就是一个强有力的证据,证明了学习自我控制可以对一个人的生活有多大的影响。但是,如果测试是关于意愿,而不是预期,那么这就体现了一个完全不同的,也许更凄美的故事。


罗切斯特大学的一组研究者最近研究了先验经验在棉花糖实验中是如何影响人们的行为的。在提到棉花糖之前,实验中的孩子们先进行了一个艺术项目。实验者给了他们一些平常的艺术品,并承诺很快会有更好的东西给他们。但是,他们并不知道,孩子们被分为两组。其中一组的实验者很诚信,返回时履行承诺,带来了更好的艺术品。而另一组的实验者并未信守承诺,回来时只给孩子们一个道歉,什么都没带回来。


艺术项目完成后,孩子们接下来就去参加标准棉花糖实验。在这个实验中,之前认为实验者是不可靠的孩子更可能在大人回来之前就吃掉棉花糖,失去获得第二颗糖的机会。


在棉花糖实验中失败,并在以后的生活也没那么成功的人可能跟缺乏毅力没什么关系。可能是因为当时那些孩子认为大人是不可靠的:他们说的话不能相信,他们离开的时间长度也是随意的。学习自我控制是一个重要的问题,但在一个成年人始终能信赖的环境中成长也是同样重要的。


机械复制时代的先验

这就好像有人要买好几份同样的晨报来确保报纸上说的是真的。

——路德维希•维特根斯坦

他仔细看他所读的内容,因为那是他要写的东西。他很认真学习他所学的内容,因为那是他将会懂得的东西。

——安妮•迪拉德


正如贝叶斯法则告诉我们的,做出准确预测的最好方法就是准确地了解你所预测的事情。这就是为什么我们能很好地预测人类的寿命,但是当被问及预测法老的统治时间时却不尽如人意。


作为贝叶斯法则的一种好方法,它以正确的比例表现世界——具有充分合理的先验,并适当校准。总的来说,对于人类和其他动物来说,这种情况是自然发生的。通常,当有什么东西使我们感到惊奇时,它应该让我们吃惊,而当它不应该让我们吃惊的时候,它就不会。即使我们所积累的偏见不是客观正确的,这些偏见通常还是会合理地反映我们所生活的世界的特定部分。例如,生活在沙漠气候中的人可能高估了世界上的沙量,而生活在极地的人可能高估了雪的总量。但他们都能很好地适应自己的生态环境。


然而,当一个物种学会使用语言时,一切就开始瓦解。我们所谈论的并不是我们所经历的事情——我们主要谈论的是有趣的事情,而这些事往往也是不寻常的。根据其定义,事件总是或多或少地在其适当的频率发生,但语言并不完全是这样。任何经历过蛇咬伤或雷击的人,都会在他们余下的生命中复述那些奇异的故事。这些故事是如此不寻常,因此会被人不断谈起。


之后,在与他人沟通和保持准确的先验世界之间有一种奇怪的压力。当人们谈论感兴趣的事或说一些他们认为听众也会感兴趣的故事时,就偏离了我们的经验统计。这使得经验统计很难保持适当的先验分布。而随着印刷术、新闻和社交媒体的发展,这种挑战会不断增加,并使我们人类这个物种能够机械地传播语言。


想想你见过多少次失事的飞机或汽车。你完全可能看过以下某个场景——失事的汽车可能就在你旁边的道路上,而飞机坠毁可能发生在另一个大陆,这些消息都是通过互联网或电视传输给你的。例如,在美国,从2000 年起到现在,在商业飞机上失去生命的总人数不足以填满卡耐基音乐厅,甚至一半都没有。相比之下,美国在同一时间段死于车祸的人数就超过了怀俄明州的全部人口。


简单地说,媒体对事件的报道并不与其在世界上发生的频率相符。社会学家巴里·格拉斯纳指出,在20 世纪90 年代美国的谋杀率下降了20%,然而在那段时间里,美国新闻中所报道的枪支暴力事件却增加了600%。


如果你想成为一个具有准确直觉的贝叶斯主义者——如果你想自然地做出准确的预测,而不必考虑什么样的预测规则是适当的,你就需要保护你的先验。相反,这可能意味着要关闭消息来源渠道。

∑编辑 | Gemini

粉丝福利

送书!

想获得此书,

文章底部留言,

留言点赞前四名的粉丝(24小时计),

免费获得此书!


登录查看更多
0

相关内容

本话题关于日常用语「概率」,用于讨论生活中的运气、机会,及赌博、彩票、游戏中的「技巧」。关于抽象数学概念「概率」的讨论,请转 概率(数学)话题。
【新书册】贝叶斯神经网络,41页pdf
专知会员服务
178+阅读 · 2020年6月3日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
231+阅读 · 2020年5月2日
【强化学习】深度强化学习初学者指南
专知会员服务
182+阅读 · 2019年12月14日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
167+阅读 · 2019年12月4日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
未来20年(2019—2039)的50个技术预测
全球创新论坛
5+阅读 · 2018年12月16日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
SVM大解密(附代码和公式)
机器学习算法与Python学习
6+阅读 · 2018年5月22日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
实例详解贝叶斯推理的原理
算法与数学之美
3+阅读 · 2017年10月3日
专栏 | 贝叶斯学习与未来人工智能
机器之心
10+阅读 · 2017年9月19日
从贝叶斯方法谈到贝叶斯网络
七月在线实验室
8+阅读 · 2017年7月6日
Arxiv
13+阅读 · 2020年4月12日
Bivariate Beta LSTM
Arxiv
6+阅读 · 2019年10月7日
Arxiv
19+阅读 · 2018年6月27日
Arxiv
5+阅读 · 2018年5月5日
Arxiv
29+阅读 · 2018年4月6日
VIP会员
相关资讯
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
未来20年(2019—2039)的50个技术预测
全球创新论坛
5+阅读 · 2018年12月16日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
SVM大解密(附代码和公式)
机器学习算法与Python学习
6+阅读 · 2018年5月22日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
实例详解贝叶斯推理的原理
算法与数学之美
3+阅读 · 2017年10月3日
专栏 | 贝叶斯学习与未来人工智能
机器之心
10+阅读 · 2017年9月19日
从贝叶斯方法谈到贝叶斯网络
七月在线实验室
8+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员