本期内容为《走进人工智能》:第9讲 从知其然到知其所以然:因果推理∣辛普森悖论:伯克利招生录取率之谜
《走进人工智能》
你好,这里是吴飞的数字专栏《走进人工智能》。上一讲我们介绍了实现“整体大于部分总和”的群体智能。在专栏的第九讲,我为你准备的内容是“从知其然到知其所以然:因果推理”。哲学上把现象和现象之间那种“引起和被引起”的关系,叫做因果关系。因果推理是一种重要的推理手段,也是人类智能的重要组成部分。我们在回答“吸烟是否导致癌症”或者“广告是否引发商品销量上涨”等问题时,往往需要因果推理的能力。这一讲我将从辛普森悖论、因果与关联的差异以及因果分析手段三个方面来介绍因果推理。
辛普森悖论:伯克利招生录取率之谜
1973年,美国科学院院士、加州大学伯克利分校统计系教授彼得·毕克(Peter J .Bickel)在美国《科学》(Science)杂志上发表了一篇有趣的论文,讨论“伯克利分校录取新生时性别歧视”的困惑。在文章中,彼得·毕克教授分别统计了1973年申请和录取的伯克利分校本科生中男生和女生的人数,发现当年男生录取率为44%,远高于女生录取率35%。因此,从这些数据可以得出“伯克利分校当年在男生和女生录取中性别歧视昭然若揭”这一结论,也就是女生更难被录取。然而,单独统计每个院系的录取情况之后发现,对于每个院系而言,男生录取率和女生录取率相差无几,甚至对伯克利六个最大的院系分别统计男生和女生录取率,竟然有四个院系女生录取率高于男生录取率。最后,将每个院系男生录取率和女生录取率分别累加,计算平均录取率,女生录取率实际上比男生录取率还高一点。
也就是说,将所有新生按照院系分组后,统计得到男生和女生的录取率,与不按照院系分组统计男生和女生的录取率结果正好相反。这就是著名的辛普森悖论(Simpson’s paradox)。我们用一组数据进行简单示意(非真实数据)。
辛普森悖论反映了总体数据集上成立的某种关系却在分组数据集合中“反其道而行之”的怪异现象。辛普森悖论最初是英国数学家爱德华·辛普森(Edward H. Simpson)在1951年发现的。在辛普森悖论中,把数据拆开细看的时候,细节和整体趋势完全不同。彼得·毕克教授认为,在伯克利男生和女生录取率这个案例中,产生悖论的原因在于女生更愿意申请那些竞争压力很大的院系(比如英语系),但是男生却更愿意申请那些相对容易进的院系(比如工程学系)。在分析伯克利分校录取率时,不应该只看到男生和女生这个性别因素,还应该知晓“专业选择”这一因素会对新生录取产生作用。
“横看成岭侧成峰”,同样的数据会存在千万种解读。但是,与“历史不是任人打扮的小姑娘”一样,数据也不是任人打扮的小姑娘。辛普森悖论的重要性在于它告诉我们如下道理:很多时候我们看到的数据并不是反映现象全貌的数据,如果忽略产生数据的“潜在变量”,可能会改变已有结论,而我们却常常一无所知。比如在伯克利招生录取中,专业选择就是一个潜在变量。从观测结果中寻找引发结果的原因,“知其然且知其所以然”,由果溯因,就是因果推理。
产品名称:走进人工智能∣有声通识十五讲
主理人:吴飞
出品机构:高等教育出版社 、高等教育电子音像出版社
合作机构:浙江大学上海高等研究院、上海人工智能实验室智能教育中心
出品时间:2022年1月