爱丁堡大学最新《因果机器学习: 医疗健康与精准医疗应用》2022综述

2022 年 8 月 10 日 专知

因果机器学习如何用于医疗中？爱丁堡大学最新《因果机器学习医疗应用》综述， 探讨因果推理如何利用机器学习的最新进展，纳入临床决策支持系统的不同方面

因果机器学习(CML)在医疗保健领域越来越受欢迎。除了将领域知识添加到学习系统的固有能力之外，CML还提供了一个完整的工具集，用于研究系统对干预的反应(例如，给定治疗的结果)。量化干预的效果使我们能够在混杂因素存在的情况下做出可行的决策，同时保持鲁棒性。在此，我们将探讨因果推理如何利用机器学习的最新进展，纳入临床决策支持系统的不同方面。在本文中，我们使用阿尔茨海默病创建的例子来说明如何CML可以在临床场景中是有利的。此外，我们讨论了医疗保健应用中存在的重要挑战，如处理高维和非结构化数据，推广到非分布样本和时间关系，尽管研究社区的巨大努力仍有待解决。最后，我们回顾了因果表征学习、因果发现和因果推理的研究路线，这些研究为解决上述挑战提供了潜力。

随着强大的机器学习(ML)方法(如深度学习[1])的出现，医疗健康预测系统取得了相当大的进展。在医疗保健领域，临床决策支持(CDS)工具可以对诸如医学图像、临床免费文本注释、血液测试和遗传数据等电子健康记录(EHR)数据进行检测、分类和/或分割等任务进行预测。这些系统通常使用监督学习技术进行训练。然而，大多数由ML技术支持的CDS系统只学习数据中变量之间的关联，而不区分因果关系和(虚假)相关性。

图1 医疗健康中的CML有助于理解偏见和对干预效果的形式化推理。我们通过一个假设的例子说明，可以从低级数据(例如，I1可能对应于从医学图像中获得的脑容量)中提取高级特征(因果表征)，并将其提取成一个对应于数据生成过程的图表。CML可以用来发现变量之间哪些关系是虚假的，哪些是因果关系，分别用虚线和实线来说明。最后，CML提供了对干预效果进行推理的工具(使用do()操作符)。例如，对D1的干预只会影响图中的下游变量，而其他关系要么不相关(由于图的破坏)，要么保持不变。

以精准医疗(也被称为个性化医疗)为目标的CDS系统需要回答关于个人对干预会如何反应的复杂问题 。例如，针对阿尔茨海默病(AD)的精确CDS系统应该能够量化使用给定药物治疗患者对最终结果的影响，例如预测随后的认知测试得分。即使有合适的数据和完美的性能，目前的ML系统也只能根据之前数据的相关性来预测最佳的治疗，这可能不能代表可操作的信息。当信息能够根据给定患者的不同情况(如治疗结果与未治疗结果)之间的比较做出治疗(介入)决定时，信息被定义为可操作的。这种系统需要因果推理(CI)来进行可操作的个体化治疗效果预测。

在医疗健康中，一个主要的上游挑战是如何获得必要的信息来对治疗和结果进行因果推理。现代医疗健康数据是多模态、高维且通常是非结构化的 。在进行预测时，必须考虑到来自医学图像、基因组学、临床评估和人口统计的信息。多模态方法可以更好地模拟人类专家如何利用信息进行预测。此外，许多疾病是随着时间的推移而发展的，因此必须考虑到时间(时间维度)。最后，任何系统都必须确保这些预测能够在不同的部署环境(如不同的医院、城市或国家)中推广。有趣的是，CI和ML之间的联系可以帮助缓解这些挑战。ML允许因果模型通过学习变量之间复杂的非线性关系来处理高维和非结构化数据。CI利用专家知识对系统进行了额外的理解，提高了多模态数据的信息融合，提高了当前ML系统的泛化和可解释性。

因果机器学习(CML)文献提供了几个方向来解决上述挑战时使用观察数据。在此，我们将CML分为三个方向 : (i) 学习给定高维数据的因果表示，学习提取低维信息(因果)变量及其因果关系;因果发现——给定一组变量，学习它们之间的因果关系; (iii) 因果推理——给定一组变量及其因果关系，分析系统将如何对干预作出反应。我们在图1中说明了如何将这些CML方向集成到医疗健康中。在这篇文章中，我们讨论了CML如何可以改善个性化决策，以及帮助减轻紧迫的挑战在CDS系统。我们回顾了CML的代表性方法，解释了如何在医疗健康上下文中使用它们。特别地，我们 (i) 提出因果关系和因果模型的概念;(二)说明它们如何在医疗健康环境中发挥作用; (iii) 讨论紧迫的挑战，如处理高维和非结构化数据、分布泛化和时间信息; (iv) 综述CML的潜在研究方向。

什么是因果性？

我们对因果关系有一个宽泛的定义:如果A是原因，B是结果，那么B的值依赖于A。由于因果关系是有方向性的，反之则不成立; A的值不依赖于B。因此，因果关系的概念使分析系统将如何应对干预成为可能。诸如“如果病人接受X治疗，这种疾病会如何发展?”’或者‘如果接受了Y的治疗，这个病人还会经历结果Z吗?需要从因果关系出发来理解干预会如何影响特定的个体。在临床环境中，因果推理可以用于决定哪种治疗将导致最好的结果。例如，在AD场景中，因果关系可以回答这样的问题:“哪种药物A或哪种药物B能在5年内最大程度地减少患者预期的认知衰退?”理想情况下，我们将使用观察(历史)数据来比较替代治疗的结果。然而，“CI”[3]的“根本问题”是，对于每个单位(即患者)，我们要么观察治疗A的结果，要么观察治疗B的结果，但不能同时观察两者。这是因为在做出治疗的选择后，我们无法逆转时间来撤消治疗。这些考虑个人假设情况的查询被称为潜在结果。因此，我们只能观察到一个行动的一种潜在后果;未观察到的量变成了反事实。由Pearl [4]， Imbens和Rubin[5]开创的因果关系的数学形式主义允许回答这些更具挑战性的问题。大多数ML方法(目前)无法识别因果关系，因为不做假设就根本无法实现CI[4,6]。这些假设中的几个可以通过研究设计或外部语境知识得到满足，但没有一个可以仅仅从观察数据中发现。接下来，我们向读者介绍两种定义和推理因果关系的方法:用结构性因果模型(SCMs)和用潜在结果。

为什么我们要考虑医疗健康中的因果框架?

在过去的几十年里，CI在社会科学、计量经济学、流行病学和病因学等领域做出了一些贡献[4,5]，最近它已经扩展到其他医疗健康领域，如医学影像学[14-16]和药理学[2]。在本节中，我们将详细阐述因果关系如何用于改善医疗决策。例如，尽管来自EHRs的数据通常是观察性的，但它们已经成功地用于若干ML应用，如建模疾病进展[18]，预测疾病恶化[19]和发现危险因素[20]，以及预测治疗反应[21]。此外，我们现在有证据表明，算法在成像任务中实现了超人的性能，如分割[22]，检测病理和分类[23]。然而，精确医学试图实现的目标并不是以近乎完美的精度预测特定患者的疾病。相反，我们的目标是建立ML方法，从观察性患者数据中提取可操作的信息，以便做出介入(治疗)决定。这就需要CI，它超越了下面详细介绍的用于预测的标准监督学习方法。为了在患者层面做出可执行的决定，我们需要评估治疗效果。治疗效果是两种潜在结果的差异: 事实结果和反事实结果。为了进行可操作的预测，我们需要算法来学习如何对可能采取不同行动的假设场景进行推理，从而创建一个可以导航的决策边界，以改善患者的结果。最近有证据表明，人类使用反事实推理来做出因果判断[25]，这为这种推理假设提供了支持。这就是为什么推断治疗效果的问题与潜在结果框架定义的标准监督学习[2]有本质区别[5,10]。根据定义，当使用观测数据集时，我们从未观察到与事实相反的结果。因此，针对个体的最佳治疗(精准医疗[26]的主要目标)只能通过能够进行因果推理的模型来确定，详见§3.3。

复杂数据的因果机器学习

在§3中，我们关注在因果模型已知(至少部分已知)且变量划分良好的情况下的因果推理。我们向读者推荐Bica等人[2]对这些方法进行全面的综述。然而，大多数医疗问题在因果推理的上游都有挑战。在本节中，我们强调处理高维和多模态数据以及时间信息的需要，并讨论从非结构化数据学习时在非分布设置中的泛化。

因果机器学习研究方向

本文的最后一部分讨论了CML在医疗健康中的应用，包括复杂的多模态、时间和非结构化数据，并讨论了一些未来的研究方向。我们根据§1中定义的三个类别来讨论CML:(i)因果表征学习; (ii) 因果关系的发现; (iii) 因果推理。

因果表示学习

表示学习[82]指的是ML的组合视图。我们考虑的不是输入域和输出域之间的映射，而是一种捕捉世界概念的中间表示。当考虑使用真实的医疗数据进行学习和推理时，这个概念是必不可少的。§4.3中考虑的高维和非结构化数据，没有被组织成可以直接用于当前因果模型的单位。在大多数情况下，感兴趣的变量不是，例如，图像本身，而是它的生成因素之一，例如AD例子中的灰质体积。因果表征学习[9]将学习世界因素的概念扩展到用因果模型建模变量之间的关系。换句话说，目标是将表示域Z建模为§2.1中的SCM。因果表征学习建立在解纠缠表征学习文献[83-85]的基础上，旨在强化更强的归纳偏差，而非解纠缠表征通常追求的因素独立假设。这个想法是为了强化遵循因果模型的潜在变量的层次结构，而因果模型又应该遵循真实的数据生成过程。

因果关系的发现

进行随机对照试验非常昂贵，有时不道德，甚至是不可能的。例如，为了了解吸烟对肺癌的影响，有必要强制随机的个人吸烟或不吸烟。大多数真实的数据是观察性的，发现变量之间的因果关系更具挑战性。考虑到因果变量已知的设置，因果发现是学习变量之间因果关系方向的任务。在某些设置中，我们有许多输入变量，目标是构建最好地描述数据生成过程的图结构。在过去的三十年中，围绕从观测数据中发现因果结构的广泛背景得到了发展，正如最近的主题综述所描述的[6,86 - 88]。大多数方法依赖于条件独立检验、对可能的DAGs和/或关于数据生成过程的函数类和噪声分布的假设的组合探索(例如，假设真实的因果关系是线性的，带有附加噪声，或外源噪声具有高斯分布)来寻找给定因果变量的因果关系。在医疗健康领域，Huang等人[89]和Sanchez-Romero等人[90]使用因果发现方法，利用功能性MRI数据了解大脑中不同的生理过程是如何相互造成因果影响的。因果发现仍然是一个开放的研究领域，从观察数据发现因果效应[6,91]的一些主要挑战是无法(i)识别所有潜在的偏差来源(未观察到的混杂因素);(ii)为所有变量选择适当的函数形式(模型错误说明);(iii)建立时间因果关系模型。

因果推理

据推测，人类通过直觉理论[35]内在地构建了生成因果模型来想象近似的物理机制。同样，利用围绕干预的因果模型的力量开发模型也将是有用的。因果模型可以被正式地操纵以衡量干预的效果。使用因果模型来量化干预的效果并思考最佳决策被称为因果推理。正如前面§3.3中所讨论的，因果推理在医疗健康中的一个关键好处是围绕个性化决策。在SCMS(§2.1)中，个性化决策通常指的是回答关于历史情况的反事实问题的能力，例如“如果患者接受了替代治疗X会发生什么?”反事实可以通过(i)三步程序[53](绑架-动作-预测)进行估计，该程序最近通过深度学习[15,92]得到增强，使用生成模型，如归一化流[93]、变分自编码器[94]和扩散概率模型[95]，或(ii)孪生网络[96]，该网络增强了原始SCM，从而同时表示事实和反事实变量。深度孪生网络[97]利用神经网络进一步提高因果机制的灵活性。我们注意到，量化干预效果通常假设因果模型要么是明确给出的[15,98]，要么是通过因果发现获得的[99]。Aglietti等人[98]利用他汀类药物对前列腺特异性抗原水平的因果效应模型来评估他们的方法[100]，而Pawlowski等人[15]和Wang等人[101]则对大脑MRI图像的数据生成过程建模。Reinhold等[102]在Pawlowski等人[15]的基础上增加了多发性硬化病变的病理信息。在潜在结果框架(§2.2)中，已经提出了许多方法来根据观察数据估计个性化(也称为个体化或条件平均)治疗效果。这些技术包括贝叶斯加性回归树[103]、双ML[104,105]、带积分概率度量[106]或正交约束[107]的神经网络正则化、高斯过程[108]、生成式对抗网络[109]或基于能量的模型[110]。另一种估计CATE的趋势是基于元学习者[111,112]。在元学习设置中，传统的(监督)ML被用来预测潜在结果和倾向的条件期望。然后，通过取估计的潜在结果之间的差值[112]或使用带有回归调整、倾向加权或双鲁棒学习的两步程序[111]来计算CATE。

参考文献：

Jason Abrevaya, Yu-Chin Hsu, and Robert P Lieli. Estimating conditional average treatment effects. Journal of Business & Economic Statistics, 33(4):485–505, 2015. Emma L. Anderson, Laura D. Howe, Kaitlin H. Wade, Yoav Ben-Shlomo, W. David Hill, Ian J. Deary, Eleanor C. Sanderson, Jie Zheng, Roxanna Korologou-Linden, Evie Stergiakouli, George Davey Smith, Neil M. Davies, and Gibran Hemani. Education, intelligence and alzheimer’s disease: evidence from a multivariable two-sample mendelian randomization study. International Journal of Epidemiology, 49:1163–1172, 2020. doi: 10.1093/IJE/DYZ280.

专知便捷查看