思维胜于数据 -《为什么:关于因果关系的新科学》Part I

2019 年 8 月 16 日 遇见数学

每一门蒸蒸日上的科学都是在其符号系统的基础上繁荣发展起来的。

——奥古斯都·德·摩根(1864)

大数据为什么不够聪明?
比概率语言更强大的思考工具是什么? 


书将要讲述的故事会围绕一门科学展开,这门科学改变了我们区分事实与虚构的方式,但目前,它仍处于大众的视野之外。这门新科学非常重要,其已经影响到了日常生活的种种重要的方面,并且还有可能进一步扩大影响范围,覆盖从新药开发到经济政策制定,从教育和机器技术人到枪支管制乃至全球变暖等重大问题的探索和解决。值得注意的是,尽管这些问题涉猎的领域广泛多元并且完全不具可比性,但这门新科学仍然成功将它们全部纳入一个统一的框架,这在20年前是根本不可能实现的。

这门新科学并没有一个时髦的名字,和我的许多同事一样,我简单地称之为“因果推断”它本身也并不是什么高科技。因果推断力图模拟的理想技术就存在于我们人类自身的意识之中。数万年前,人类开始意识到某些事会导致其他事的发生,并且改变前者就会导致后者的改变。没有其他物种领悟到了这一点,更别说达到我们所理解的这种程度。由这一发现,人类这一物种创造出了有组织的社会,继而又建立了乡村和城镇,直至创建了我们今天所享有的科技文明。所有这一切都源于我们的祖先提出了这样一个简单的问题:为什么?

因果推断正是关于这个问题的严肃思考。它假设人类大脑是大自然有史以来为处理因果知识而设计出的最先进的工具。我们的大脑存储了海量的因果知识,而在数据的辅助下,我们可以利用这些知识解决当代社会所面临的最紧迫的问题。一个更宏伟的目标是,一旦我们真正理解了因果思维背后的逻辑,我们就可以在现代计算机上模拟它,进而创造出一个“人工科学家”。这个智能机器人将会为我们发现未知的现象,解开悬而未决的科学之谜,设计新的实验,并不断从环境中提取更多的因果知识。

但在冒险推测未来发展之前,了解迄今为止因果推断这门科学所取得的成就至关重要。我们将深入探讨它是如何改变了几乎所有依赖数据信息的学科中研究者的思维模式,以及它将如何改变我们的生活。

这门新科学解决了以下这些看似简单明了的问题:

•一种特定的疗法在预防某类疾病方面的成效如何?

•是新税法的颁布还是层出不穷的广告推销活动导致了销售额的增长?

•由肥胖引发的医疗保健成本增长的总体占比为何?•雇用记录可否证明雇主实施了涉及性别歧视的招聘政策?

•我打算辞掉工作。我究竟该不该这么做?


这些问题的共同点在于它们都与因果关系有关,我们可以通过诸如“预防”、“导致”、“由……引发”、“证明”和“该不该”这样的词语轻易识别出它们。这些词在日常生活用语中很常见,我们的社会也一直在不断提出这样的问题并寻求答案。然而,就在不久之前,我们甚至还无法在科学的范围内找到途径明确地表述这些问题,更别说回答它们了。

到目前为止,因果推断对人类最重要的贡献就是让这个科学盲点变成了历史。这门新科学催生出了一种简单的数学语言,用以表达我们已知和欲知的因果关系。以数学形式表达因果关系的能力让我们得以开发出许多强大的、条理化的方法,将我们的知识与数据结合起来,并最终回答出如上述那5个涉及因果关系的问题。

过去的25年,我有幸成为参与了这一科学发展进程中的一员。在公众的视野之外,我曾目睹过它在学生宿舍和研究实验室中崭露头角,也曾听到过在严肃的科学会议中它的突破性进展所引发的共鸣。眼下,随着我们进入强人工智能(AI)时代,越来越多的人开始鼓吹大数据和深度学习的无尽可能性,这使我越发感觉到,向读者展示这门新科学正在进行的大胆探索,其对于数据科学以及人类在21世纪的生活所可能造成的诸多影响是恰逢其时且激动人心的。

我知道,当听到我把这些成就描述为一门“新科学”时,你可能会心存疑虑。你甚至可能会问,为什么科学家没有在更早的时间就开始这样做?比如在古罗马诗人维吉尔首次宣称“幸运儿乃是能理解众事原委之人”(公元前29年)的时候,或者,在现代统计学的奠基人弗朗西斯·高尔顿(Francis Galton)和卡尔·皮尔逊(Karl Pearson)首次发现人口统计数据可以揭示一些科学问题的答案的时候。在这些关键性的时间节点上,他们很遗憾地与因果关系失之交臂,这背后的曲折故事我将在本书的有关因果推断的历史渊源的章节中一一道来。在我看来,阻碍因果推断这一科学产生的最大障碍,是我们用以提出因果问题的词汇和我们用以交流科学理论的传统词汇之间的鸿沟。

为了说明这一鸿沟的深度,不妨设想一下科学家在尝试表达一些明显的因果关系时所面临的困难——举个例子,气压计读数B可以用来表示实际的大气压P。我们可以轻而易举地用方程式来表示这种关系,B=kP,其中k是某个比例常数。如今,代数规则能让我们以多种形式书写这个方程,例如,P=B/k,k=B/P,或者B–kP=0。它们意义相同,即如果知道方程中的三个量中的任意两个,那么第三个量即是确定的。字母k、B或P三者中的任意一个在数学上都没有凌驾于其他两个之上的特权。那么,我们怎样才能表达这个确凿无疑的事实,即,是大气压导致了气压计读书的变化,而不是反过来呢?倘若连这一事实都无法表达,我们又怎能奢望去表达其他许多无法用数学公式来表达的因果推断,例如鸡打鸣不会导致太阳升起?

我的大学教授们就没能做到这件事,也从没有为此抱怨过。我敢打赌,你们的教授中也没人研究过这个问题。现在,我们已经明白原因为何了:他们从未见识过一种关于因果的数学语言,也从未发现到它的好处。这种语言的发展被好几代科学家所漠视,其实质是科学的一种衰败。众所周知,按动开关按钮会导致一盏灯的打开或关闭,夏日午后的闷热空气会促使当地冰淇淋店的销售额增加。那么,为什么科学家们没有像用公式表达光学、力学或几何学的基本法则那样,用公式去捕捉这些显而易见的事实?为什么他们容忍这些事实在原始的直觉中凝滞,而不去运用那些促使其他科学分支走向繁荣和成熟的数学工具呢?

答案部分在于,科学工具的开发是为了满足科学需要。正因为开关、冰淇淋和气压计这类问题我们处理起来驾轻就熟,所以用特殊的数学工具来解决它们的意愿始终不够强烈。但随着人类求知欲的不断增强,,以及社会现实开始要求人们讨论在复杂的法律、商业、医疗和决策情境中出现的因果问题,我们终于发现我们缺少一门成熟的科学所应提供的用于回答者些问题的工具和原理。

这种迟来的觉醒在科学中并不少见。例如,直到大约400年前,人们还满足于以本能来应对日常生活中的不确定性,从过马路到冒险打一架都包括在内。后来,赌徒们发明了复杂的赌博游戏,他们得以通过精心的设计来欺骗我们做出糟糕的选择。直到这时,布莱斯·帕斯卡(Blaise Pascal,1654)、皮埃尔·德·费马(Pierrede Fermat,1654)和克里斯蒂安·惠更斯(Christiaan Huygens,1657)这样的数学家才发现有必要建立一门今天我们称之为概率论的数学科学分支。同样,只有当保险机构开始要求准确估算人寿年金保险的时候,爱德蒙·哈雷(Edmond Halley,1693)和亚伯拉罕·棣莫弗(Abrahamde Moivre,1725)这样的数学家才开始关注死亡率统计数据,并据此计算人的预期寿命。与此相似,正是天文学家对天体运动精确预测的要求促使雅格布·伯努利(Jacob Bernoulli)、皮埃尔–西蒙·拉普拉斯(Pierre-Simon Laplace)和卡尔·弗里德里希·高斯(Carl Friedrich Gauss)建立了误差理论,让我们得以从噪声中提取信号。这些方法和理论都是今天统计学得以建立的基础。

具有讽刺意味的是,对因果关系理论的需求是在统计学产生的那一刻浮出水面的。事实上,现代统计学的创立正源自因果问题——高尔顿和皮尔逊提出了一个关于遗传的因果问题,并独具匠心地尝试用跨代数据来解答它。遗憾的是,这一努力失败了,他们没有停下来去问为什么,反而声称这些问题是禁区,转而去发展另一项刚刚兴起、不涉及因果关系的事业——统计学。(未完待续)

本文整合自《为什么:关于因果关系的新科学》导言部分。

图灵奖获得者
贝叶斯网络之父
美国国家科学院院士
朱迪亚·珀尔

登录查看更多
6

相关内容

【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
专知会员服务
123+阅读 · 2020年3月26日
Gartner:2020年十大战略性技术趋势, 47页pdf
专知会员服务
76+阅读 · 2020年3月10日
中科大-人工智能方向专业课程2020《脑与认知科学导论》
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
CCCF译文 | 机器学习如何影响本科生计算机课程
中国计算机学会
6+阅读 · 2019年2月18日
10000个科学难题 • 制造科学卷
科学出版社
13+阅读 · 2018年11月29日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
【因果关系】由模仿“人脑”转向“因果推理”
产业智能官
10+阅读 · 2018年7月13日
干货来袭:漫谈概率统计方法与因果关系
数据猿
5+阅读 · 2018年2月23日
NSR观点| 学习因果关系和基于因果性的学习
知社学术圈
17+阅读 · 2018年1月7日
量子世界的因果关系
中国物理学会期刊网
8+阅读 · 2017年8月5日
Arxiv
4+阅读 · 2019年12月2日
Arxiv
22+阅读 · 2019年11月24日
Arxiv
3+阅读 · 2018年10月11日
VIP会员
相关资讯
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
CCCF译文 | 机器学习如何影响本科生计算机课程
中国计算机学会
6+阅读 · 2019年2月18日
10000个科学难题 • 制造科学卷
科学出版社
13+阅读 · 2018年11月29日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
【因果关系】由模仿“人脑”转向“因果推理”
产业智能官
10+阅读 · 2018年7月13日
干货来袭:漫谈概率统计方法与因果关系
数据猿
5+阅读 · 2018年2月23日
NSR观点| 学习因果关系和基于因果性的学习
知社学术圈
17+阅读 · 2018年1月7日
量子世界的因果关系
中国物理学会期刊网
8+阅读 · 2017年8月5日
Top
微信扫码咨询专知VIP会员