图灵奖得主Judea Pearl :从“贝叶斯网络之父”到“AI社区的叛徒”

2020 年 6 月 7 日 学术头条

图灵奖得主Judea  Pearl,早在40多年前便通过贝叶斯网的设计,使机器实现概率推理而在人工智能领域声名大噪,并被誉为“贝叶斯网络之父”,但近年却公开声称自己其实是人工智能社区的一名“叛徒”:离开了主流追逐、并且也是由他奠定重要理论基础和方法论的概率推理,而去追求一项更具挑战性的任务——因果推理。Judea Pearl 认为当今深度学习所有令人印象深刻的成就,都只不过是为了适应“曲线拟合(Curve fitting)”而今,这也导致深度学习的研究员们困在了“关联级别”的问题窘境里。Judea  Pearl 期望能掀起一场“因果革命”,采用因果推理模型,从因果而非单纯的数据关联角度去研究人工智能。

 

携多年磨一剑的“因果推理”理论,Judea Pearl将出席第二届北京智源大会(官网:https://2020.baai.ac.cn并做Keynote演讲,为我们徐徐呈现他眼中多彩而神奇的人工智能“画卷”。为了更好地消化他的演讲观点,我们不妨通过本文来预热了解一下Judea Pearl 关于因果推断的主要思想。


图1:长按图片,内行盛会,首次免费注册


整理  社区编辑 杨依帆,常政


Judea Pearl 




朱迪亚·珀尔(Judea Pearl)——以色列裔美籍计算机科学家、哲学家,以倡导人工智能的概率方法和贝叶斯网络而闻名。他还因在结构模型的基础上发展出因果和反事实推论而受到广泛称赞。2011年,ACM授予Judea Pearl图灵奖,以表彰他“通过发展概率和因果推理演算对人工智能做出的基础性贡献”。



图2:Judea Pearl(图片出自网络)


Judea Pearl 在2018年出版了一本新著《为什么:关于因果关系的新科学》系统总结了自己近25年关于“因果推断”探索的思想结晶、研究成果。下面我们对该书中文版[1]的部分文字和图片进行引用和整理,以帮助大家快速了解他的基本思想。


1. 因果关系的三个层级


Judea Pearl  的这部著作,核心围绕“因果关系之梯”的三个层级来描述,他说:“我在机器学习方面的研究经历告诉我,因果关系的学习者必须熟练掌握至少三种不同层级的认知能力:观察能力(Seeing)、行动能力(Doing)和想象能力(Imagining)。”


图3:因果关系的三个层级——关联、干预、反事实


第一层级(关联):观察能力,指发现环境中规律的能力。

第二层级(干预):行动能力,指预测对环境刻意改变后的结果,并根据预测结果选择行为方案。

第三层级(反事实):想象能力,指想象并不存在的世界,并推测观察到的现象原因为何。


第一层级“关联”和第二层级“干预”主要针对当前的弱人工智能,包括对现有贝叶斯网络在深度学习领域的拓展、前门标准实践、do演算等核心算法;而第三层级“反事实”,Judea Pearl 认为反事实能力基于基于人的想象力和假设,是人类独有的思考能力,也是令人工智能达到人类智能的关键命门。


2. 反事实的算法化:

将意识和智能体转化为计算现实


现在基于统计的机器学习方法,其理论缺陷便在于此:由于缺乏反事实这一层级的信息,使得无论总结经验还是预测未来,都缺乏理据。比如一个基于统计的事实“感冒了,吃了感冒药,感冒好了”,实际上这并不能证明感冒药的效果,如果要证明其中的因果性,需要研究相应的反事实:“如果当初没有吃感冒药,现在感冒好不好?”


Judea Pearl 说:“ 如果在我睡觉的时候,我的家庭机器人打开了吸尘器,我会告诉它:‘你不该吵醒我。’我们对真正的智能机器人的期望是,它们应该明白你我都能完全理解的事:吸尘器会制造噪音,噪音会吵醒睡觉的人,而这会让被吵醒的人不高兴。”


图4:一个聪明的机器人会考虑它行为的因果影响


所以强人工智能应该是能反思其行为,并能从过去的错误中吸取教训的机器。它应该能够理解“我本应该采取不同的行为”这句话。这个说法的反事实解释是:“我做了 X = x,得到的结果是 Y = y。然而,假如我之前采取了不同的行动,比如说 X = x',那么结果本应该会更好,也许是 Y = y'。


3. 新冠肺炎的反事实研究


针对当前的新冠疫情,Judea Pearl 于2020年4月2日在其博客上发布了一项相关研究[2],目标是“如何将有限的医疗资源提供给最需要的病人”。通过这个研究案例,我们也可以一窥“反事实”的推理过程:


一男一女两名患者来到你的急诊室,他们的COVID-19检测都呈阳性。哪个病人最需要治疗?我们要看一下相关的数据。


图5:COVID-19  (图片出自网络)


一组分别针对男性和女性的随机对照试验结果表明,男性在接受治疗的情况下,有57%的几率康复,而在不接受治疗的情况下,只有37%的几率康复。另一方面,女性在接受治疗的情况下,康复率为55%,在不接受治疗的情况下,康复率为45%。我们可能会得出这样的结论:男性的治疗效果比女性更佳。但事实并没有这么简单。


事实证明,数据可以用多种方式进行解释。我们看男性治疗的数据,有两种极端的解释,第一种是:治疗组和未治疗组之间20%的差异挽救了20%本来会死亡的患者的生命;第二种极端的解释是,治疗挽救了所有57%的患者的生命,而实际上杀死了37%的其他病人。


再看女性的数据,在第一种极端的解释中,55%的康复率中有10%是通过治疗挽救的,45%无论如何都会恢复。在第二种极端的解释中,55%的患者被治疗所挽救,而45%被治疗所杀死。


综上所述,受益人的百分比,对于男性来说,可能在20%到57%之间,而对于女性来说,可能在10%到55%之间。


现在设置Y为因变量,y表示康复,y'表示死亡。X表示自变量,x表示治疗,x'表示不治疗。用y(x)表示接受治疗后康复的事件,y(x')表示没有接受治疗并康复的事件。用y'(x)表示治疗后死亡的事件,y'(x')表示没有接受治疗后死亡的事件。用P(y(x))表示在实验组接受治疗并康复的概率,用P(y'(x'))表示没有接受治疗并死亡的概率。我们用PNS表示男性与女性因治疗而受益的概率。


如下图所示,以男性为例,当P(y(x))=0.57,P(y(x'))=0.37时,0.2<=PNS<=0.57。这里也符合之前的猜想。令P(x)=0.4,P(y|x)=0,P(y|x')=0,同样,令P(y(x))=0.57,P(y(x'))=0.37,这时得出的结果是0.57<=PNS<=0.57,意思是57%的男性可以从治疗当中受益。


图6:结合实验数据,计算得出57%的男性能够从治疗中受益


再看女性的例子,我们令P(x)=0.45,P(y|x)=1,P(y|x')=0,再令P(y(x))=0.55,P(y(x')=0.45。得到的结果是PNS=0.1。


现在我们知道,57%的男性和10%的女性能够从治疗当中获益。


但是我们不能只考虑因治疗受益的因素,还要考虑没有因治疗而受益(或者说因治疗而受害)的因素。将之前同样的数值代入,得到的结果是37%的男性因治疗而受害,而0%的女性因治疗而受害。


在实验组(接受治疗)中,我们治愈一个人,对社会的益处只能算作一个单位;在对照组(不接受治疗)中,我们没有让某人接受治疗,对社会造成的危害是2个单位,因为我们失去了能够治愈某人的机会。综上所述,男性:1*0.57-2*0.37=-0.17;女性:1*0.1-2*0=0.1。所以,如果你是一名决策者,你应该优先治疗女性。


4. 因果革命的数理框架


当然,反事实算法仅是Judea Pearl 多年来因果理论研究的一部分,关于他整个因果推理体系的数理框架,体现在他设计的结构化因果模型(Structural  Casual Models,SCM)之中,这是Pearl  为了突破现有机器学习对于因果推断的理论限制、推动一场全新的“因果革命”而打造的核心引擎。


Judea Pearl  在2020年5月31日更新于博客的一篇近期访谈中,认为SCM灵活地整合了当今统计模型的主要优点和方法,特别是结合了图模型和潜在的输出逻辑,其中图用来编码“我们所知道的”,逻辑用来编码“我们想要知道的”,然后用数学工具将这两类数据进行结合。


这里我们选取SCM的主要逻辑部分作一个简介,关于它进一步的详细内容,推荐大家阅读 Judea Pearl  2019年发表于ACM会议的报告《The Seven Tools of Causal Inference, with Reflections on Machine Learning》[3]。


SCM主要包括:图模型、反事实和介入式逻辑、 结构化方程三部分。图模型作为表征知识的语言,反事实逻辑帮助表达问题,结构化方程以清晰的语义将前两者关联起来。


如图8所示,SCM引擎接受三种输入:假设(Assumptions)、查询(Queries)和数据(Data),并生成三种输出:被估量(Estimand)、估计值(Estimate)和拟合指数(fit indices)。被估量(E_S)是一个数学公式,该公式基于假设,提供从任意假设数据中回答查询的方法(可获取假设数据的情况下)。在接收到数据后,该引擎使用被估量来生成问题的实际估计值 E_s hat,以及问题置信度的统计估计值(以反映数据集的有限规模,以及可能的衡量误差或缺失数据)。最后,该引擎生成一个“拟合指数”列表,可衡量数据与模型传递的假设的兼容性。


图7:Judea Peal的结构化因果模型(Structural  Casual Model,SCM)


此外,这里还推荐大家阅读马克斯·普朗克智能系统中心主任 Bernhard Schölkopf  在2019年12月发表的一篇论文《CAUSALITY FOR MACHINE LEARNING》[4],它详细讨论了Pearl 的因果推理理论和机器学习的联系,不仅得到了Judea Pearl 本人在Twitter 上的高度认可,甚至还得到了另一位图灵奖获得者Yann LeCun的“点赞”。


在NIPS 2017 某个研讨会 Q& A 上,Judea Pearl 曾经这么解释他心中的因果革命:“30年前,我们还无法为‘Mud does not cause Rain’编写一个公式;现在,我们可以公式化和评估每一个因果或反事实陈述”。


 5.人工智能领域最好的学者


图8:人工智能的科幻图(图片来自网络)


Judea Pearl 笃信“绝对能开发出具有自由意志的机器人”,其路径便是“因果推理代替关联推理”,他并不担心可能存在的“机器人作恶”问题:“我们能够制造出有能力辨别善恶的机器,它至少应该和人类一样可靠,而且有望比人类更可靠。我们对道德机器的首要要求是它能够反省自己的行为,其涉及反事实分析。一旦我们编写完使机器实现自我觉察的程序,我们就能赋予机器以同理心和公平感,因为这些程序建基于相同的计算原则。”


2017年间,Facebook、Twitter等社交网站曾闹了个“乌龙”:大家热传一张Judea Pearl在NIPS 2017 上对着“空无一人的房间演讲”的照片,感慨真是“机器学习悲惨的一天”,事后发现这是因摄影师拍摄角度而导致的误会。但这个乌龙能快速传播,本身也说明Judea Pearl 这么多年来在学术领域一直处在以孤军作战的状态。Judea Pearl 本人喜欢说这么一个段子:1960年代,他从纽约某不知名大学博士毕业后,去各校求职屡屡碰壁,总被告知“从来没听说过这个学校”,以至于最终UCLA对他的接纳,成为他人生中“除了娶我太太以外最重要的事情”。


这个段子给笔者的印象是,Judea Pearl似乎天然有一种唐吉柯德般的战士情节:总是在践行一条少数人走的未知道路。同时,当我们细细探寻他多年来放弃轻易可获的鲜花和掌声、孤身探寻强人工智能和因果革命之心路轨迹,会发现背后支撑他的心灵能量——笃信人类智慧可以编写出“人工智能为善”的源代码。因此,笔者以机器学习领域奠基人、加州大学伯克利计算机系教授 Michael I Jordan 曾经对他的评价作为本文的结尾:


Judea Pearl 教授是AI 领域最好的学者,没有之一。


参考文献


[1]朱迪亚·珀尔(Judea Pearl),达纳·麦肯齐(Dana Mackenzie). 为什么:关于因果关系的新科学[M]. 北京:中信出版集团股份有限公司,2019年7月

[2]Judeal Pearl. Which Patients are in Greater Need: A counterfactual analysis with reflections on COVID-19,http://causality.cs.ucla.edu/blog/

[3]Judeal Pearl. The Seven Tools of Causal Inference, with Reflections on Machine Learning,https://cacm.acm.org/magazines/2019/3/234929-the-seven-tools-of-causal-inference-with-reflections-on-machine-learning/fulltext

[4]Bernhard Schölkopf. 2019.CAUSALITY FOR MACHINE LEARNING. arXiv:1911.10500


点击阅读原文,查看更多精彩!

登录查看更多
0

相关内容

裘迪亚·珀尔(Judea Pearl)(生于1936年9月4日)是一名以色列裔美国计算机科学家和哲学家,以倡导人工智能的概率方法和贝叶斯网络的发展而闻名。他还因开发基于结构模型的因果和反事实推理理论而受到赞誉。2011年,计算机协会将 Pearl授予图灵奖,是计算机科学领域的最高荣誉,“通过开发概率和因果推理演算对人工智能的基本贡献”
【纽约大学】最新《离散数学》笔记,451页pdf
专知会员服务
128+阅读 · 2020年5月26日
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
深度学习 | GAN模式崩溃的理论解释
数据派THU
10+阅读 · 2019年2月17日
以史为镜 | VC/PE的前世今生
线性资本
27+阅读 · 2018年7月11日
告别曲线拟合:因果推断和do-Calculus简介
论智
24+阅读 · 2018年5月26日
Marcus十大理由质疑深度学习?LeCun说大部分错了
大数据文摘
4+阅读 · 2018年1月4日
【人工智能】重磅:中国人工智能40年发展简史
产业智能官
7+阅读 · 2017年11月12日
专栏 | 贝叶斯学习与未来人工智能
机器之心
10+阅读 · 2017年9月19日
Parsimonious Bayesian deep networks
Arxiv
5+阅读 · 2018年10月17日
VIP会员
Top
微信扫码咨询专知VIP会员