上帝手中的骰子——无所不能的贝叶斯(下篇)

2018 年 4 月 24 日 R语言中文社区 量子金服

本文为量子金服原创文章,转载须授权


在《上帝手中的骰子——无所不能的贝叶斯(上篇)》中,我们从贝叶斯定理开始,讲述了贝叶斯公式和它在早期两个非常重要的应用事件。如今,贝叶斯理论在数学及工程领域应用极其广泛,那么到底是什么事件重新让它突破应用的障碍,重新受到科学家们重视的呢?今天,笔者将从贝叶斯理论最重要的应用说起,看看它究竟是如何大放异彩的。

贝叶斯理论的伯乐

Frederick Jelinek

千里马常有,而伯乐不常有。谈起贝叶斯公式的应用,就不得不提起一个人——语音和语言处理大师Fred Jelinek,没有他,人们不知到多久以后才会知道语言还能被机器处理。

人们平时在说话时,脑子就是一个信息源。人们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信号。根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音的自动识别。同样,在计算机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错

在70年代以前,语音识别还停留在识别小词汇量、孤立词的方面

1973年,贾里尼克在IBM组建了语音识别的研究队伍,其中包括他的著名搭档波尔(Bahl),著名的语音识别 Dragon 公司的创始人贝克夫妇,解决最大熵迭代算法的达拉皮垂(Della Pietra)孪生兄弟,BCJR 算法的另外两个共同提出者库克(Cocke)和拉维夫(Raviv),以及第一个提出机器翻译统计模型的布朗。

在贾里尼克以前,科学家们把语音识别问题当作人工智能问题和模式匹配问题:


贾里尼克把它当成通信问题,他通过将贝叶斯公式和马尔科夫链结合,简化问题使计算机能够方便求解,从而解决了语音识别问题。

N-Gram是大量词汇连续语音识别中最常见的一种语言模型,模型基于独立输入假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。这个是个基于贝叶斯公式的统计语言模型。

贾里尼克对至今的语音和语言处理有着深远的影响,他的研究从根本上使得语音识别有实用的可能。自此之后,贝叶斯方法的应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到贝叶斯方法的影子,如今,贝叶斯更是机器学习的核心方法之一

“聪明的”贝叶斯分类器

我们都知道贝叶斯方法曾有200年无人问津,原因是经典统计学完全能够解决小型问题,而且相比需要靠主观判断的贝叶斯方法,建立在客观事实上的经典统计学更让人信服。但随着大型问题的出现,经典统计学在面对复杂问题时,往往无法获得足够多的样本数据,导致其无法通过研究样本来推断总体规律。数据的稀疏性令经典统计学频频碰壁,直到计算机技术的飞速发展后,数据的大量运算变得可能,贝叶斯方法这才被人重新重视起来。

我们以多分类任务为例,来解释贝叶斯决策的基本原理:

假设有N种可能的类别标记,即Y={c1,c2,...,cN},是将一个真实标记为的样本误分类为所产生的损失。基于后验概率可获得将样本x分类为所传声的期望损失——即在样本x上的条件风险:

        (1.1)

我们的任务是寻找一个判定准则以最小化总体风险

            (1.2)

显然,对每个样本x,若h能最小化条件风险,则总体风险R(h)也将被最小化。这就产生了贝叶斯判定准则:为最小化总体风险,只需在每个样本上选择那个能使条件风险R(c|x)最小的类别标记,即

        (1.3)

此时,h*称为贝叶斯最优分类器(Bayes optimal classifier),与之对应的总体风险R(h*)称为贝叶斯风险(Bayes risk)1-R(h*)反映了分类器所能达到的最好性能,这也是通过机器学习所能产生的模型精度的理论上线。(更多内容,可参考《机器学习》周志华著)

贝叶斯分类器一个经典的应用是过滤垃圾邮件:

正确识别垃圾邮件的技术难度非常大,传统方法有:

关键词法:根据特定关键词过滤邮件

邮件特征过滤法:根据邮件的某些特征,如语言、文件格式等判断是否为垃圾邮件

校验码法:计算文本的校验码,再与抑制的垃圾邮件进行对比

但这些方法识别效果并不理想,很容易规避。

2002年,Paul Graham提出用“贝叶斯推断”过滤垃圾邮件,结果这样做的效果好的不可思议,1000封垃圾邮件可以过滤掉995封,且没有一个误判。

可以看出贝叶斯分类器是一种统计学分类器,建立在已有的统计结果之上,我们必须预先提供两组已经识别好的邮件,一组是正常邮件,而另一组是垃圾邮件。以这两组邮件对分类器进行训练,邮件的规模越大,训练的效果就越好

这种分类器具有自我学习的功能,所以贝叶斯分类器被广泛应用在人工智能、心理学、遗传学、模式识别等领域

贝叶斯决策论在机器学习,模式识别等诸多关注数据分析的领域都有极为重要的地位,对贝叶斯定理进行近似求解,为机器学习算法的涉及提供了一种有效途径。

根据对属性间依赖的涉及程度,贝叶斯分类器形成了一个谱:从朴素贝叶斯分类器(不考虑属性间依赖性)到贝叶斯网(表示任意属性间依赖性),二者之间是一系列半朴素贝叶斯分类器。它们各有所长,针对某些特定问题有着非常显著的效果。

比如朴素贝叶斯分类器:它引入了属性条件独立性假设,这个假设其实在现实应用中很难成立,但是许多情形下并不影响朴素贝叶斯分类器的性能,在信息检索领域十分常用。

又如贝叶斯网:它借助有向无环图来刻画属性间的依赖关系,为不确定学习和推断提供了基本框架。它比马尔科夫链灵活,更适合解决复杂问题,未来随着量子计算机的发展,贝叶斯网络进行迭代训练的计算问题将会得到解决,届时,贝叶斯网一定能在人工智能领域大放异彩。

最简单的贝叶斯定理,到复杂的贝叶斯网,回头来看,现在的许多算法都是许多年前就已经出现的,数学的神奇可见一斑。写到这里,我们再回头看看文章最开始讲的贝叶斯定理:

P(A|B)=P(AB)/P(B)

就会发现,原来机器学习的智慧,最初竟是如此简单的模样。

- END -

登录查看更多
0

相关内容

贝叶斯定理(英语:Bayes' theorem)是概率论 中的一个定理 ,它跟随机变量 的条件概率 以及边缘概率分布 有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。这个名称来自于托马斯·贝叶斯 。
专知会员服务
42+阅读 · 2020年7月7日
自回归模型:PixelCNN
专知会员服务
26+阅读 · 2020年3月21日
缺失数据统计分析,第三版,462页pdf
专知会员服务
108+阅读 · 2020年2月28日
【BAAI|2019】用深度学习模拟原子间势,王涵  (附pdf)
专知会员服务
17+阅读 · 2019年11月21日
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
【干货合集】从贝叶斯方法谈到贝叶斯网络
七月在线实验室
6+阅读 · 2018年8月1日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
生活中处处的贝叶斯
算法与数学之美
4+阅读 · 2018年2月19日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
独家 | 一文读懂贝叶斯分类算法(附学习资源)
数据派THU
7+阅读 · 2017年12月7日
干货|通俗易懂地解释EM算法并举例说明?
机器学习研究会
12+阅读 · 2017年11月17日
从概率论到多分类问题:综述贝叶斯统计分类
机器之心
12+阅读 · 2017年9月28日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
从贝叶斯方法谈到贝叶斯网络
七月在线实验室
8+阅读 · 2017年7月6日
A Probe into Understanding GAN and VAE models
Arxiv
9+阅读 · 2018年12月13日
Arxiv
5+阅读 · 2018年3月16日
VIP会员
相关资讯
一文读懂机器学习中的贝叶斯统计学
数据分析
26+阅读 · 2019年5月8日
【干货合集】从贝叶斯方法谈到贝叶斯网络
七月在线实验室
6+阅读 · 2018年8月1日
浅谈贝叶斯和MCMC
AI100
14+阅读 · 2018年6月11日
生活中处处的贝叶斯
算法与数学之美
4+阅读 · 2018年2月19日
一文读懂贝叶斯分类算法(附学习资源)
大数据文摘
12+阅读 · 2017年12月14日
独家 | 一文读懂贝叶斯分类算法(附学习资源)
数据派THU
7+阅读 · 2017年12月7日
干货|通俗易懂地解释EM算法并举例说明?
机器学习研究会
12+阅读 · 2017年11月17日
从概率论到多分类问题:综述贝叶斯统计分类
机器之心
12+阅读 · 2017年9月28日
酒鬼漫步的数学——随机过程 | 张天蓉专栏
知识分子
10+阅读 · 2017年8月13日
从贝叶斯方法谈到贝叶斯网络
七月在线实验室
8+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员