近年来,机器学习取得了显著进展,提供了一些新功能,比如创建复杂的、可计算的文本和图像表示。这些功能催生了新产品,如基于图像内容的图像搜索、多种语言之间的自动翻译,甚至是真实图像和声音的合成。同时,机器学习已经在企业中被广泛采用,用于经典的用例(例如,预测客户流失、贷款违约和制造设备故障)。
在机器学习取得成功的地方,它是非常成功的。
在许多情况下,这种成功可以归因于对大量训练数据的监督学习(结合大量计算)。总的来说,有监督的学习系统擅长于一项任务:预测。当目标是预测一个结果,并且我们有很多这个结果的例子,以及与它相关的特征时,我们可能会转向监督学习。
随着机器学习的普及,它在业务流程中的影响范围已经从狭窄的预测扩展到决策制定。机器学习系统的结果经常被用来设定信用限额,预测制造设备故障,以及管理我们的各种新闻推送。当个人和企业试图从这些复杂和非线性系统提供的信息中学习时,更多(和更好)的可解释性方法已经被开发出来,这是非常重要的。
然而,仅仅基于预测的推理有一些基本的限制。例如,如果银行提高客户的信用额度会发生什么?这些问题不能用建立在先前观察到的数据上的相关模型来回答,因为它们涉及到客户选择的可能变化,作为对信用限额变化的反应。在很多情况下,我们的决策过程的结果是一种干预——一种改变世界的行动。正如我们将在本报告中展示的,纯粹相关的预测系统不具备在这种干预下进行推理的能力,因此容易产生偏差。对于干预下的数据决策,我们需要因果关系。
即使对于纯粹的预测系统(这是监督学习的强项),应用一些因果思维也会带来好处。根据因果关系的定义,它们是不变的,这意味着它们在不同的情况和环境中都是正确的。对于机器学习系统来说,这是一个非常理想的特性,在机器学习系统中,我们经常根据我们在训练中没有看到的数据进行预测;我们需要这些系统具有适应性和健壮性。
因果推理和机器学习的交集是一个迅速扩展的研究领域。它已经产生了可供主流采用的功能——这些功能可以帮助我们构建更健壮、可靠和公平的机器学习系统。
本书介绍了因果推理,因为它涉及很多数据科学和机器学习工作。我们引入因果图,着重于消除理解的概念障碍。然后我们利用这个理解来探索关于不变预测的最新想法,它给高维问题带来了因果图的一些好处。通过附带的原型,我们展示了即使是经典的机器学习问题,如图像分类,也可以从因果推理工具中受益。
目录内容:
导论 Introduction
因果推断 Background: Causal Inference
Why are we interested in causal inference?
The ladder of causation
From correlation to causation
From prediction to intervention
How do we know which graph to use?
TL;DR
因果性与不变性 Causality and Invariance
The great lie of machine learning
Dangers of spurious correlations
Invariance
Invariant Causal Prediction
Invariant Risk Minimization
How IRM works
原型 Prototype
The Wildcam dataset
Experimental setup
Results
Product: Scene
Landscape
Use Cases
Tools
Ethics
Causal graphs make assumptions explicit
Omitting protected attributes is not enough
Invariance as a route to fairness
Future
Comparable approaches
Looking ahead
Conclusion
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“CML88” 就可以获取《「因果性机器学习」书册,88页pdf概述机器学习中的因果推理》专知下载链接