KDD 2018 | 微软推出用于因果推断的Python库——DoWhy

2018 年 8 月 24 日 论智
KDD 2018 | 微软推出用于因果推断的Python库——DoWhy
来源:Microsoft Research
编译:Bing

随着计算机系统在各领域(例如医疗、教育、政府机关)的应用,正确预测并理解这些设备的因果影响是非常重要的。没有A/B测试,建立在模式识别和相关性分析上的传统的机器学习方法,是不足以解释因果推理的。

与用来预测的机器学习库类似,微软研究院推出的DoWhy是一种引起因果思考和分析的Python库,它提供了一个统一的界面进行因果推理,并对许多假设进行自动测试,让非专业人士也能进行推理。该成果在最近举办的KDD 2018上做出了展示,以下是论智对其进行的大概介绍。

《告别曲线拟合:因果推断和do-Calculus简介》一文中我们讲到,因果推断区分了人们可能想要估计的两种条件分布。在机器学习中,我们通常只会估计一种分布,但在某种情况下,我们可能也需要估计第二种。因果推断关注的是一些基础问题,它能帮我们回答“如果我们对x做了什么,那……”的问题,而这些问题通常需要对照试验和明确的干预措施来解决。

几十年来,社会科学和生物医学中,因果推断方法的使用十分广泛。随着计算机在我们的工作和日常生活中所占比例越来越大,因果关系问题在计算机科学中的重要性也不断增加。为了解决这个广泛的问题,我们推出了一个新的软件库——DoWhy(名称来源于Judea Pearl的do-calculus)。除了为常见的因果推断方法提供一个程序设计界面,DoWhy的设计还是为了显示常被忽略的因果分析假设。所以,DoWhy的特点之一就是会让潜在的假设更容易理解。另外,DoWhy可以进行敏感度分析和其他鲁棒性检查。我们的目的是让人们关注他们在对因果推断做假设时的思考而不是其中的细节

过去几年对因果推断的研究,让我们产生了创造DoWhy的想法,不论是估计推荐系统的影响,还是预测可能的成果,都对此有所启发。在每项研究中,我们总会重复以下步骤:找到正确的辨别策略、设计最合适的估计器、检查鲁棒性,每次都要从头开始。有时,面对大量有关因果推理的材料,进行实证推理就非常困难。想要理解我们的假设并证明它们,是很有挑战性的工作。

所以我们思考,能否创建一个软件库,通过简单的界面进行因果推断。但不幸的是,因果推断取决于对未知数量的估计,这也是因果推断的基本问题。与监督学习不同,我们无法从现有的测试集中得出客观的评估,所以,在因果推断中无法建立即时可用的方法。例如,对任何方法来说,例如新的算法或医疗处理过程,人们可以观察当他们被干预时发生了什么,或不被干预时会发生什么,但无法同时观察两种情况。所以,因果分析和数据生成过程中的假设有着重要的关系。

为了达到我们的目标,我们明白假设应该是因果推断库中最重要的因素。我们在设计DoWhy时考虑了两个指导原则——让因果假设易于理解,同时测试预测对违反假设的鲁棒性。

首先,DoWhy对辨别(identification)和估计(estimation)做了区分。对因果效应进行标人需要对数据生成过程做假设,同时还要从虚拟表示中具体说明目标被估量。估计过程完全是数据问题,所以辨别过程是最耗时的。为了正式表示假设,DoWhy利用贝叶斯图模型框架,从中用户可以详细了解他们想知道的东西,更重要的是,知道他们此前不知道的有关数据生成过程的事。对于估计,我们提供了基于潜在输出框架的方法,例如匹配、分层和辅助变量。使用DoWhy时还有一个“愉悦”的副作用,那就是你会发现看似分散的图模型和潜在输出框架其实是互通对等的。

将对因果影响的辨别和估计区分开

然后,一旦做出了假设,DoWhy会提供鲁棒性检测和敏感性检查,来检查估计的可靠性。由于潜在的假设多种多样,你可以测试估计是如何变化的,例如,通过加入一个新的干扰项或用“安慰剂”进行替换。不论哪种方法,DoWhy库都会基于图模型的假设自动检查得出的估计的有效性。不过我们依然知道自动检测不完美。所以,DoWhy会着重对输出进行解读。在分析的任何阶段,你都可以查看未经测试的假设、经过辨认的被估量以及得出的估计(如果有的话)。

在四行代码中进行因果推断。DoWhy的简单运行

未来,我们期待在库里增加更多特征,包括支持更多的估计和敏感性的方法,以及与其他可用的估算软件进行互通。

Jupyter notebook:causalinference.gitlab.io/dowhy/

原文地址:www.microsoft.com/en-us/research/blog/dowhy-a-library-for-causal-inference/?OCID=msrblogdowhyKDDtw

登录查看更多
21

相关内容

本书涵盖了这些领域中使用Python模块演示的概率、统计和机器学习的关键思想。整本书包括所有的图形和数值结果,都可以使用Python代码及其相关的Jupyter/IPython Notebooks。作者通过使用多种分析方法和Python代码的有意义的示例,开发了机器学习中的关键直觉,从而将理论概念与具体实现联系起来。现代Python模块(如panda、y和Scikit-learn)用于模拟和可视化重要的机器学习概念,如偏差/方差权衡、交叉验证和正则化。许多抽象的数学思想,如概率论中的收敛性,都得到了发展,并用数值例子加以说明。本书适合任何具有概率、统计或机器学习的本科生,以及具有Python编程的基本知识的人。

成为VIP会员查看完整内容
0
154

题目: A Survey on Knowledge Graph-Based Recommender Systems

摘要:

为了解决信息爆炸问题,提高用户在各种在线应用中的体验,人们开发了推荐系统来模拟用户的偏好。尽管人们已经为更个性化的推荐做了很多努力,但是推荐系统仍然面临着一些挑战,如数据稀疏和冷启动。近年来,以知识图为辅助信息的推荐生成引起了人们的极大兴趣。这种方法不仅可以缓解上述问题,使推荐更加准确,而且可以为推荐项目提供解释。本文对基于知识图的推荐系统进行了系统的研究。我们收集了最近在这一领域发表的论文,并从两个角度对其进行了总结。一方面,我们通过研究论文如何利用知识图进行精确和可解释的推荐来研究所提出的算法。另一方面,我们介绍了这些工作中使用的数据集。最后,提出了该领域的几个潜在研究方向。

成为VIP会员查看完整内容
0
116

题目: Learning Causality and Learning with Causality: A Road to Intelligence

摘要: 吸烟会引起癌症吗?通过分析两个变量的观测值,我们能否找到它们之间的因果关系?在我们的日常生活和科学中,人们经常试图回答此类因果问题,目的是正确理解和操纵系统。在过去的几十年中,为了回答这些问题,在机器学习,统计和哲学等领域取得了有趣的进步。此外,我们还经常关注如何在复杂的环境中进行机器学习。例如,我们如何在非平稳环境中做出最佳预测?有趣的是,最近发现因果信息可以促进理解和解决各种机器学习问题,包括迁移学习和半监督学习。这篇演讲回顾了因果关系研究中的基本概念,并侧重于如何从观察数据中学习因果关系,以及因果关系为何以及如何帮助机器学习和其他任务。最后,我将讨论为什么因果表达很重要以便实现通用人工智能。

报告人: 张坤 博士 美国卡内基梅隆大学,也是德国马克斯·普朗克智能系统研究所的高级研究科学家。他的研究兴趣在于机器学习和人工智能,尤其是因果发现,基于因果关系的学习和通用人工智能。他从因果关系的角度开发了用于自动发现因果关系的方法,从因果关系角度研究学习问题,尤其是转移学习,概念学习和深度学习,并研究了因果关系和各种机器学习任务的哲学基础。他曾担任大型机器学习或人工智能会议的区域主席或高级程序委员会成员,包括NeurIPS,UAI,ICML,AISTATS,AAAI和IJCAI。他组织了各种学术活动,以促进因果关系的跨学科研究。

成为VIP会员查看完整内容
0
81

报告主题:Learning Causality and Learning with Causality: A Road to Intelligence

报告摘要

吸烟会引起癌症吗?通过分析两个变量的观测值,我们能否找到它们之间的因果关系?在我们的日常生活和科学中,人们经常试图回答此类因果问题,目的是正确理解和操纵系统。在过去的几十年中,为了回答这些问题,在机器学习,统计和哲学等领域取得了有趣的进步。此外,我们还经常关注如何在复杂的环境中进行机器学习。例如,我们如何在非平稳环境中做出最佳预测?有趣的是,最近发现因果信息可以促进理解和解决各种机器学习问题,包括迁移学习和半监督学习。这篇演讲回顾了因果关系研究中的基本概念,并侧重于如何从观察数据中学习因果关系,以及因果关系为何以及如何帮助机器学习和其他任务。最后,我将讨论为什么因果表达很重要以便实现通用人工智能。

邀请嘉宾:美国卡耐基梅隆大学张坤博士

嘉宾简介

张坤博士是卡内基梅隆大学哲学系的助理教授和机器学习系的副教授,也是德国马克斯·普朗克智能系统研究所的高级研究科学家。他的研究兴趣在于机器学习和人工智能,尤其是因果发现,基于因果关系的学习和通用人工智能。他从因果关系的角度开发了用于自动发现因果关系的方法,从因果关系角度研究学习问题,尤其是转移学习,概念学习和深度学习,并研究了因果关系和各种机器学习任务的哲学基础。他曾担任大型机器学习或人工智能会议的区域主席或高级程序委员会成员,包括NeurIPS,UAI,ICML,AISTATS,AAAI和IJCAI。他组织了各种学术活动,以促进因果关系的跨学科研究。

成为VIP会员查看完整内容
0
48

图灵奖获得者Judea Pearl在Twitter推荐了一本新书《图模型手册》,他认为,这本书很好地刻写了图模型领域自20世纪80年代成立以来是如何发展的。由顶级统计学家编写,它可以作为传统统计学家很好的一个介绍因果模型的材料。

成为VIP会员查看完整内容
0
44
小贴士
相关VIP内容
专知会员服务
154+阅读 · 2020年6月3日
专知会员服务
10+阅读 · 2020年6月2日
专知会员服务
26+阅读 · 2020年4月5日
【干货书】机器学习Python实战教程,366页pdf
专知会员服务
229+阅读 · 2020年3月17日
相关论文
Open Domain Event Extraction Using Neural Latent Variable Models
Xiao Liu,Heyan Huang,Yue Zhang
4+阅读 · 2019年6月17日
RippleNet: Propagating User Preferences on the Knowledge Graph for Recommender Systems
Hongwei Wang,Fuzheng Zhang,Jialin Wang,Miao Zhao,Wenjie Li,Xing Xie,Minyi Guo
7+阅读 · 2018年8月7日
Han Zhu,Xiang Li,Pengye Zhang,Guozheng Li,Jie He,Han Li,Kun Gai
8+阅读 · 2018年5月21日
Lei Zheng,Chun-Ta Lu,Lifang He,Sihong Xie,Vahid Noroozi,He Huang,Philip S. Yu
5+阅读 · 2018年5月18日
Zhongyang Li,Xiao Ding,Ting Liu
9+阅读 · 2018年5月16日
Xiangyu Zhao,Long Xia,Liang Zhang,Zhuoye Ding,Dawei Yin,Jiliang Tang
6+阅读 · 2018年5月7日
Tran Dang Quang Vinh,Tuan-Anh Nguyen Pham,Gao Cong,Xiao-Li Li
12+阅读 · 2018年4月18日
Sven Schmit,Carlos Riquelme
6+阅读 · 2018年3月28日
Hongwei Wang,Fuzheng Zhang,Jialin Wang,Miao Zhao,Wenjie Li,Xing Xie,Minyi Guo
11+阅读 · 2018年3月9日
Top