上帝手中的骰子——无所不能的贝叶斯（上篇）

2018 年 4 月 19 日 R语言中文社区 量子金服

本文为量子金服原创文章，转载须授权

概率就是上帝在掷筛子——在18世纪，这是神职人员对概率的理解。为了证明上帝的存在，英国业余数学家托马斯·贝叶斯发明了概率统计学原理，他发现了古典统计学中的一些缺点，并在统计当中引入了一个主观因素（即先验概率）形成了自己的“贝叶斯统计学”。

然而他的理论在当时并不受认可。当然贝叶斯直到去世都没有印证上帝的存在，他的观点简单平淡：“用客观的新信息更新我们最初关于某个事物的信念后，我们就会得到一个新的、改进了的信念。” 这个研究成果，直到他死后的两年才于1763年由他的朋友理查德·普莱斯帮助发表。1774年，法国数学家皮埃尔-西蒙·拉普拉斯才给出了我们现在所用的贝叶斯公式的表达。

贝叶斯公式

所谓的贝叶斯定理源于他生前为解决一个“逆向概率”问题写的一篇文章：“假设袋子里有白球和黑球，我们事先并不知道袋子里面黑白球的比例，而是闭着眼摸出一个（或好几个）球，观察这些取出来的球的颜色之后，我们可以就此对袋子里面的黑白球比例做出什么样的推测?”

贝叶斯定理实际上就是条件概率公式：设A,B是两个事件，且P(B)>0,则在事件B发生的条件下，事件A发生的条件概率（conditional probability)为：

P(A|B)=P(AB)/P(B)

P(A)是A的先验概率，之所以成为先验是因为它不考虑任何B的因素，P(B)同理；

P(A|B)实在B发生时A发生的条件概率，称坐A的后验概率，P(B|A)同理。

贝叶斯定理通俗地讲，就是当你不能确定某一个事件发生的概率时，你可以依靠与该时间本质属性相关的事件发生的概率去推测该事件发生的概率

贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因（即大事件A已经发生的条件下，分割中的小事件Bi的概率），设B1,B2,...是样本空间Ω的一个划分，则对任一事件A（P(A)>0),有：

上式即为贝叶斯公式（Bayes formula)，Bi 常被视为导致试验结果A发生的“原因”，P(Bi)(i=1,2,...)为先验概率；P(Bi|A)(i=1,2...)为后验概率。

通过联系A与B，计算从一个时间发生的情况下另一时间发生的概率，即从结果上溯到源头（逆向概率）。

贝叶斯定理与经典统计学推断方法截然不同，它建立在主观判断的基础上，使用者可以不需要客观证据，先估计一个值，然后根据实际结果不断修正，正式因为它的主观性太强，和注重客观事实研究的经典统计学背道而驰，最终连公式的发现者拉普拉斯都放弃了它，转投经典统计学。但随着计算机的发展，高速运算能力解决了贝叶斯定理所需的大量运算问题，它的威力才逐渐显现。

贝叶斯应用的经典案例

两个标志性的事件使贝叶斯方法渐渐受到学术界的重视：

一是联邦党人文集作者公案：哈佛大学统计学教授Fredrick Mosteller和统计学家David Wallance通过分析词汇在文章中出现的频率，来判定《联邦党人文集》中存在争议的12篇文章其作者到底是汉密尔顿还是麦迪逊。

一是天蝎号核潜艇搜救：数学家John Craven通过数学家、潜艇专家、海事搜救等各个领域的专家，按照他们的猜测评估某种情景出现的可能性，并根据贝叶斯公式得到了一张20英里海域的概率图：

每次寻找时，先挑选整个区域内潜艇存在概率值最高的一个格子进行搜索，如果没有发现，概率分布图会被“洗牌”一次，搜寻船只就会驶向新的“最可疑格子”进行搜索，经过几次搜索，潜艇果然被找到了。这种基于贝叶斯公式的方法在后来多次搜救实践中被成功应用，现在已经成为海难空难搜救的通行做法。

这两个案例是贝叶斯应用的经典案例，但是限于当时的技术水平，贝叶斯的应用困难重重，主要的阻力来自于大量的计算，如1787年发生的联邦党人文集作者公案，David Wallance找了100个哈佛大学的学生来帮助处理数据，学生们用最原始的方式，用打字机把《联邦党人文集》打出来，剪下每个单词，按照字母表顺序将单词分门别类地汇集在一起，《联邦党人文集》中，已经确定作者的73篇文章：汉密尔顿写了9.4万字，麦迪逊写了11.4万字，可以想象这项工程有多枯燥浩大，Fredrick Mosteller和David Wallance花了十年的时间，才给这件事画上了一个完美的句号。

接下来究竟在哪些方面的应用让贝叶斯大放异彩，人们又是如何应用它进行机器学习的？明天，笔者将继续为大家一一揭晓。

（未完待续）

城市分割线