摘要:这项工作考虑了这样一个问题: 获取大量数据的便利程度如何影响我们学习因果效应和关系的能力。在大数据时代,学习因果关系与传统因果关系有哪些不同或相同之处?为了回答这个问题,这项综述提供了一个在因果关系和机器学习之间联系的全面和结构化的回顾。

https://www.zhuanzhi.ai/paper/6ad7902913e98bd48540a5596b978edc

因果性是结果与引起结果的原因之间的一种一般性关系。它很难定义,而且我们通常只凭直觉知道原因和结果。因为下雨,街道是湿的。因为这个学生不学习,所以他考试考得很差。因为烤箱是热的,奶酪在披萨上融化了。当用数据学习因果关系时,我们需要意识到统计关联和因果之间的区别。例如,当天气炎热时,一家冰淇淋店的老板可能会注意到高昂的电费和较高的销售额。因此,她会观察到电费和销售数字之间有很强的联系,但电费并不是导致高销售额的原因——让商店的灯彻夜开着不会对销售产生影响。在这种情况下,外部温度是高电费和高销售额的共同原因,我们说它是一个混乱的因果关系。

学习因果关系的能力被认为是人类水平智能的重要组成部分,可以作为AI的基础(Pearl, 2018)。从历史上看,学习因果关系已经在包括教育在内的许多高影响领域被研究过(LaLonde, 1986;Dehejia和Wahba, 1999年;Heckerman et al ., 2006;希尔,2011),医学科学(马尼和库珀,2000;经济学(Imbens, 2004)、流行病学(Hernan et al., 2000;Robins等人,2000年;、气象学(Ebert-Uphoff和Deng, 2012)和环境卫生(Li et al., 2014)。受限于数据量,坚实的先验因果知识是学习因果关系所必需的。研究人员对通过精心设计的实验收集的数据进行研究,坚实的先验因果知识至关重要(Heckerman et al., 2006)。以随机对照试验的原型为例(Cook et al., 2002),为了研究一种药物的疗效,患者将被随机分配服用或不服用该药物,这将保证平均而言,治疗组和未治疗组(对照组)在所有相关方面是等同的,排除任何其他因素的影响。然后,药物对某些健康结果的影响——比如,偏头痛的持续时间——可以通过比较两组的平均结果来衡量。

这个综述的目的是考虑在现在的大数据时代学习因果关系的新可能性和挑战,这里指的是海量数据集的可用性。举个例子,考虑到无法测量的混杂因素的可能性——可能会被减轻,因为可以测量更多的特征。因此,一方面,研究人员有可能在大数据的帮助下回答有趣的因果问题。例如,Yelp的正面评论是促使顾客去餐馆,还是仅仅反映了受欢迎程度而没有影响?这个因果问题可以通过Yelp维护的庞大数据库中的数据来解决。另一方面,用大数据来回答因果问题,会带来一些独特的新问题。例如,尽管公共数据库或通过web爬行收集的数据或应用程序编程接口(api)是空前巨大的,我们有很少的直觉对什么类型的偏差数据集可以遭受——数据更丰富,也更神秘,因此,负责任地更难模型。与此同时,大数据给其他学习任务(如预测)带来的基本统计困难,使得因果调查更具挑战性。也许这方面最显著的例子是现代数据的高维性(Li et al., 2017a),比如文本数据(Imai et al., 2013)。

成为VIP会员查看完整内容
149

相关内容

专知会员服务
35+阅读 · 2020年9月27日
最新《理论计算科学导论》书稿,655页pdf
专知会员服务
100+阅读 · 2020年9月17日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
75+阅读 · 2020年8月31日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
183+阅读 · 2020年8月6日
专知会员服务
97+阅读 · 2020年7月20日
因果关联学习,Causal Relational Learning
专知会员服务
179+阅读 · 2020年4月21日
最新《图嵌入组合优化》综述论文,40页pdf
零样本图像识别综述论文
专知
20+阅读 · 2020年4月4日
图数据表示学习综述论文
专知
52+阅读 · 2019年6月10日
自然语言处理常识推理综述论文,60页pdf
专知
69+阅读 · 2019年4月4日
NSR观点| 学习因果关系和基于因果性的学习
知社学术圈
17+阅读 · 2018年1月7日
Anomalous Instance Detection in Deep Learning: A Survey
Arxiv
4+阅读 · 2019年4月17日
Arxiv
18+阅读 · 2019年1月16日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
135+阅读 · 2018年10月8日
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2020年9月27日
最新《理论计算科学导论》书稿,655页pdf
专知会员服务
100+阅读 · 2020年9月17日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
最新《图嵌入组合优化》综述论文,40页pdf
专知会员服务
75+阅读 · 2020年8月31日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
183+阅读 · 2020年8月6日
专知会员服务
97+阅读 · 2020年7月20日
因果关联学习,Causal Relational Learning
专知会员服务
179+阅读 · 2020年4月21日
相关论文
Anomalous Instance Detection in Deep Learning: A Survey
Arxiv
4+阅读 · 2019年4月17日
Arxiv
18+阅读 · 2019年1月16日
Self-Driving Cars: A Survey
Arxiv
41+阅读 · 2019年1月14日
Arxiv
135+阅读 · 2018年10月8日
微信扫码咨询专知VIP会员