A Survey of Learning Causality with Data: Problems and Methods
摘要:这项工作考虑了这样一个问题: 获取大量数据的便利程度如何影响我们学习因果效应和关系的能力。在大数据时代,学习因果关系与传统因果关系有哪些不同或相同之处?为了回答这个问题,这项综述提供了一个在因果关系和机器学习之间联系的全面和结构化的回顾。
https://www.zhuanzhi.ai/paper/6ad7902913e98bd48540a5596b978edc
因果性是结果与引起结果的原因之间的一种一般性关系。它很难定义,而且我们通常只凭直觉知道原因和结果。因为下雨,街道是湿的。因为这个学生不学习,所以他考试考得很差。因为烤箱是热的,奶酪在披萨上融化了。当用数据学习因果关系时,我们需要意识到统计关联和因果之间的区别。例如,当天气炎热时,一家冰淇淋店的老板可能会注意到高昂的电费和较高的销售额。因此,她会观察到电费和销售数字之间有很强的联系,但电费并不是导致高销售额的原因——让商店的灯彻夜开着不会对销售产生影响。在这种情况下,外部温度是高电费和高销售额的共同原因,我们说它是一个混乱的因果关系。
学习因果关系的能力被认为是人类水平智能的重要组成部分,可以作为AI的基础(Pearl, 2018)。从历史上看,学习因果关系已经在包括教育在内的许多高影响领域被研究过(LaLonde, 1986;Dehejia和Wahba, 1999年;Heckerman et al ., 2006;希尔,2011),医学科学(马尼和库珀,2000;经济学(Imbens, 2004)、流行病学(Hernan et al., 2000;Robins等人,2000年;、气象学(Ebert-Uphoff和Deng, 2012)和环境卫生(Li et al., 2014)。受限于数据量,坚实的先验因果知识是学习因果关系所必需的。研究人员对通过精心设计的实验收集的数据进行研究,坚实的先验因果知识至关重要(Heckerman et al., 2006)。以随机对照试验的原型为例(Cook et al., 2002),为了研究一种药物的疗效,患者将被随机分配服用或不服用该药物,这将保证平均而言,治疗组和未治疗组(对照组)在所有相关方面是等同的,排除任何其他因素的影响。然后,药物对某些健康结果的影响——比如,偏头痛的持续时间——可以通过比较两组的平均结果来衡量。
这个综述的目的是考虑在现在的大数据时代学习因果关系的新可能性和挑战,这里指的是海量数据集的可用性。举个例子,考虑到无法测量的混杂因素的可能性——可能会被减轻,因为可以测量更多的特征。因此,一方面,研究人员有可能在大数据的帮助下回答有趣的因果问题。例如,Yelp的正面评论是促使顾客去餐馆,还是仅仅反映了受欢迎程度而没有影响?这个因果问题可以通过Yelp维护的庞大数据库中的数据来解决。另一方面,用大数据来回答因果问题,会带来一些独特的新问题。例如,尽管公共数据库或通过web爬行收集的数据或应用程序编程接口(api)是空前巨大的,我们有很少的直觉对什么类型的偏差数据集可以遭受——数据更丰富,也更神秘,因此,负责任地更难模型。与此同时,大数据给其他学习任务(如预测)带来的基本统计困难,使得因果调查更具挑战性。也许这方面最显著的例子是现代数据的高维性(Li et al., 2017a),比如文本数据(Imai et al., 2013)。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“LCD” 可以获取《最新《数据因果性学习: 问题与方法》2020综述论文,36页pdf》专知下载链接索引