MIT最新博士论文《用于个性化医疗和保险的新型机器学习算法》，350页pdf

2022 年 5 月 2 日 专知

摘要

在过去的几十年里，分析为彻底改变医疗保健提供了希望，提供更有效、以患者为中心和个性化的护理。随着越来越多的数据被收集、计算性能得到提高以及新算法的开发，机器学习已被视为推进医疗保健服务的关键分析工具。然而，直到最近，尽管人们对大数据的潜力充满热情，但只有少数例子影响了当前的临床实践。本论文提出了预测性和规范性方法的组合，这些方法将有助于向个性化医疗的过渡。

我们提出了新的机器学习算法来解决主要的数据缺陷，如缺失值、审查观察和未观察到的反事实。利用各种数据源，包括健康和索赔记录、纵向研究和非结构化医疗报告，我们展示了分析在心血管和脑血管疾病背景下的潜在好处。为了推动这些方法的采用，我们在算法保险领域奠定了基础，提出了一个量化框架来估计机器学习模型的诉讼风险。这项工作强调可解释性和促进临床医生参与融入医疗保健系统的模型设计。

第一部分介绍了机器学习和优化交叉点的缺失数据插补、聚类和生存分析的数据驱动算法。第二部分强调了医学领域的规范性和预测性分析的潜力。我们为个性化处方开发了一个新框架，并将其应用于冠状动脉疾病的治疗。第二部分还介绍了可以支持早期诊断和改善中风患者管理的预测模型。最后，第三部分提出了一种新的风险评估方法，使医疗机构能够管理因实施分析决策工具而产生的风险。

第一章引言

1.1 研究动机

ML 模型已开始在现代组织中发挥重要作用。在当今瞬息万变的经济和社会中，它们正迅速成为转型、颠覆和竞争优势的关键来源。等待这种影响的科学领域前沿是医疗保健和保险。这些领域的特点是不确定性和可变性，这对临床医生、政策制定者和商业领袖的决策过程构成重大挑战。需要考虑的参数太多，潜在的并发症众多，而少数群体的专业信息匮乏。

医疗实践仍然主要由传统的统计技术驱动，这些技术从有限的样本量和风险因素中得出结论。数据驱动的流程尚未整合到医院决策中，而广泛建立的医疗指南主要针对普通人群，在绝大多数情况下缺乏个性化。分析和机器学习为该领域创造了前所未有的机会，提供了可以利用大数据力量的新技术，在个人层面发现新见解。本论文的目的是展示我们如何利用这些宝贵的资源来个性化决策，并最终为患者、医疗机构和保险组织带来更好的结果。

1.1.1 医疗保健应用的机器学习方法

从电子健康和索赔记录到纵向研究和非结构化医疗报告，医疗保健行业使用各种需要专门算法的数据源。该领域遇到的问题的复杂性以及数据的不完整性，对充分发挥其潜力构成了重大挑战。第一部分介绍了利用优化技术解决医疗保健应用中遇到的一些最常见数据问题的新 ML 算法：缺失值、聚类和删失。在第 2 章中，我们设计了一种新方法 MedImpute，用于在多变量面板数据中估算缺失的临床协变量。在第 3 章中，我们提出了通过最优树 (ICOT) 进行可解释聚类，这是一种恢复可解释数据集群的新型无监督学习方法。在第 4 章中，我们解决了使用最优生存树 (OST) 算法进行删失的挑战，生成全局优化的生存树模型。与各种数据集和环境上的现有成熟方法相比，我们展示了这些算法的卓越计算性能。第一部分提供了可解释性不必以牺牲准确性为代价的证据，提供了一套新的工具，可以在医疗保健中采用数据驱动模型方面发挥关键作用。

1.1.2 临床数据的规范性和预测性分析

第二部分说明了分析对医疗保健行业的变革力量，强调了我们与医学研究人员在创建促进临床决策的规范模型和预测分数方面的联合研究工作。首先，我们展示了如何利用可用的 ML 算法在患者层面提供治疗建议，从而实现向个性化医疗的过渡。我们的工作通过综合大量患者对不同方案观察到的异质反应，揭示了个性化、高效的治疗方法。我们的规范算法利用了基于投票方案的通用监督学习模型的组合。它的性能是通过一系列新的评估指标来衡量的，这些指标考虑了在各种基本事实下多种治疗的反事实结果。因此，我们评估了规范方法的准确性、有效性和鲁棒性。我们将这项技术应用于冠状动脉疾病 (CAD) 的管理，这是对人类健康影响最大的临床疾病之一（第 5 章）。

接下来，我们专注于以中风患者为中心的预测模型。我们强调模型推导和外部验证过程，并提出潜在的技术来从非线性模型中识别可操作的见解。使用来自广为人知的弗雷明汉心脏研究的结构化数据，我们在第 6 章中提出了一个健康个体估计 10 年中风风险的新模型。该模型已在波士顿医疗中心 (BMC) 进行了前瞻性验证，并且正在 Hartford HealthCare 的初级保健机构进行回顾性评估。第 7 章转向非结构化信息，介绍从非结构化放射影像文本中提取患者信息的综合框架。我们结合使用自然语言处理和监督学习方法，自动检测缺血性中风的潜在存在、位置和严重程度。该模型现已在布莱根妇女医院和 BMC 成功用于患者表征。

在这些调查中，我们的目标是这些模型的采用和临床整合。为了提供影响医疗实践的有用且可解释的工具，我们开发了在线 Web 应用程序来传达建议的推荐系统结果。事实证明，这些接口对于确保医生使用模型并在部署它们的医疗保健组织中产生真正的影响至关重要。

1.1.3 算法保险

现代医疗保健组织中数据驱动工具的实施同时扰乱了保险业。通过提供强大的预测模型来估计可能导致索赔的不良事件（即心脏病发作、癌症等）的概率，分析已经开始超越健康保险中的传统精算方法。未来，机器学习算法有望发挥更核心的作用，因为在预测性和规范性性能产生更好结果的情况下，它们将被要求取代人类决策。这种转变引发了具有挑战性的问题：“如果算法的推荐错误，谁来承担责任？”和“我们如何保护决策者免受错误的算法预测？”随着人工智能开始融入组织的决策过程，必须开发新型保险产品来保护其所有者免受风险。潜在的例子包括应用于放射学的图像识别系统，这些系统可能承担医疗责任，并从医疗保健扩展到自动驾驶汽车或用于制造的预测性维护算法，以及许多其他应用。第三部分为称为算法保险的新研究领域奠定了基础。我们提出了一个全面的量化过程来估计算法责任保险合同的风险敞口，同时考虑到二元分类模型的预测性能、可解释性和可概括性。我们在医疗事故的背景下展示了我们的方法实施。

1.2 大纲和主要贡献

本文的贡献可以总结如下，按章节列出。

第 2 章：时间序列的医学插补

数据缺失是医疗保健研究中的一个主要问题，因为不完整的信息经常出现在患者记录中。在本章中，我们提出了一个新框架 MedImpute，用于在多变量面板数据中估算缺失的临床协变量。这种方法提出了一种灵活的优化公式，可以对其进行修改以适应不同的插补算法。它可以使用广泛的临床数据集作为输入，包括来自临床试验和电子健康记录 (EHR) 的信息，这些信息对个性化医疗具有特别的研究兴趣。我们将我们的贡献总结如下：

∙ 我们在 MedImpute 框架下用时间序列信息制定了缺失数据插补的问题，扩展了 Bertsimas 等人 (2018) [32]提出的 OptImpute 框架。我们专注于 𝑘-最近邻 (𝑘-NN) 公式来解决优化问题并推导出相应的快速一阶算法 med.knn。

∙ 我们进行了一系列计算实验，测试该方法在三个真实世界数据集上的性能，改变缺失数据的百分比、每个个体的观察次数以及缺失数据的机制。

∙ 我们证明，相对于其他最先进的缺失数据插补方法，med.knn 在所有实验中始终能带来最佳的预测性能和最低的插补误差。

∙ 我们提出了一种新的自定义调整程序，以有效地学习优化问题中的超参数，与标准交叉验证相比，该程序具有卓越的缩放性能和更好的插补精度。

本章中的工作成果发表在“机器学习”期刊 [41]。

图 2.1：在 FHS、DFCI 和 PPMI 数据集上使用 MAE 度量的每种方法的插补误差，缺失数据的百分比从 10% 变化到 50%。缺失数据机制固定为 MCAR。

第 3 章：可解释聚类：一种优化方法

广泛建立的聚类技术不能提供数据分离背后的直观推理，从而限制了它们的可解释性。在现实世界的应用中，特别是在医疗保健环境中，后者对决策者采用和集成 ML 工具构成了主要障碍。在本章中，我们提出了一种基于树的无监督学习方法，该方法可以获得可解释的集群，其性能与其他现有算法相当或更好。我们的贡献如下：

∙ 我们提供了无监督学习问题的 MIO 公式，导致创建全局最优聚类树，激发了我们的新算法 ICOT。

∙ 我们建议使用迭代坐标下降 (CD) 方法来实现我们的方法，该方法可扩展到更大的问题，很好地逼近全局最优解。

∙ 我们引入了其他技术，利用采样和集群创建的几何原理来提高算法的效率。

∙ 我们证明，ICOT 与使用跨多个内部验证标准的合成数据集的各种聚类方法相比具有竞争力。

∙ 我们提供了该算法如何在实际环境中使用的示例，并测试了 ICOT 对大型问题实例的扩展能力。

本章的工作成果发表于“机器学习” 期刊[31]。

图 3.1：基于 Ruspini 数据集构建的聚类树示例。

第 4 章：最优生存树

生存分析解决了数据集中出现的挑战，在这些数据集中出现了审查观察结果，其中感兴趣的结果通常是事件发生前的时间，但对于某些人来说，事件的确切时间是未知的。审查结果在医疗保健研究中无处不在，因此，用于生存分析的 ML 方法越来越受欢迎。我们提出了利用 MIO 和局部搜索技术生成全局优化生存树模型的 OST 算法。我们证明 OST 提高了现有生存树方法的准确性，特别是在大型数据集中。本章的主要贡献是：

∙ 我们提出了一种生存树算法，该算法利用 Optimal Trees 框架为审查数据生成可解释的树。

∙ 我们提出了一种新的准确度指标，用于评估 Kaplan-Meier 曲线估计相对于模拟数据集中已知生存分布的拟合度。

∙ 我们评估了我们的方法在模拟和真实世界数据集中的性能，并展示了相对于两种现有算法的改进准确性。

∙ 我们提供了该算法如何用于预测不良事件风险并在现实世界数据集中产生临床见解的示例。

本章中的工作已提交出版[28]。

图 4.1：在 60 个真实世界数据集中平均分类方法的性能。OCT 和 OCT-H 分别指的是没有和有超平面分割的最优分类树。

图 4.6：生存树算法的树恢复指标摘要。

第 5 章：冠状动脉疾病患者的个性化治疗：机器学习方法

在本章中，我们的目标是为 CAD 患者找到最佳的主要治疗方法，以最大限度地提高 TAE（心肌梗塞或中风）。我们提出了一种数据驱动的方法，利用多种回归算法为每位患者分配具有最佳预测结果的方案。我们开发预测性和规范性模型，提供个性化的治疗建议和评估它们的定量框架。本章的主要贡献是：

∙ 我们提出了一种治疗右删失患者的新方法，该方法利用 𝑘-NN 方法来估计真实世界数据的真实生存时间。

∙ 我们开发了可解释且准确的二元分类和回归模型，用于预测 CAD 患者潜在不良事件的风险和时间。

∙ 我们提出了第一个利用 EHR 为 CAD 提供治疗建议的规范性方法，将多个最先进的回归模型与临床专业知识相结合。

∙ 我们引入了一种新的评估框架来衡量规范算法的样本外性能。

∙ 我们创建了一个在线应用程序，医生可以在其中实时测试算法的性能，从而缩小与临床实践的差距。

本章中的工作成果发表于“医疗管理科学”期刊 [42]。

图 5.3：OCT 模型第一部分的可视化。路径 1 和 2 用蓝色虚线矩形框表示。阴影节点包括树模型的折叠子集。

第 6 章：非线性弗雷明汉中风风险评分

绝大多数中风发生在没有梗塞病史的人群中，这突出了健康个体需要准确的中风风险评估工具。标准中风风险评分基于风险因素与疾病患病率之间存在线性关系的假设。然而，数学和医学现实表明，这些因素的相互作用远非线性，并且由于其他变量的缺失或存在，某些变量会获得或失去意义。本章介绍 N-SRS；一种预测 10 年中风风险的新模型。利用 ML 算法，我们的风险计算器提高了事件预测的准确性，并以可解释的方式揭示了患者特征之间的新关系。本章的主要贡献如下：

∙ 我们提出了一种利用纵向研究数据用于监督学习模型的新方法，允许在训练和测试队列中出现同一患者的多个实例。

∙ 我们使用来自著名的弗雷明汉心脏研究的数据开发并验证了第一个非线性、可解释的预测评分，用于 10 年中风风险。

∙ 我们展示了 N-SRS 树结构如何导致识别 23 个中风风险概况，突出新变量在疾病进展中的作用，例如心电图结果中显示的血细胞比容水平或异常。

∙ 我们构建了一个动态在线应用程序，作为算法的用户友好界面，供临床提供者使用。

本章中的工作发表于 PLOS one [257]。

图 6.1：基于 N-SRS 树的模型的可视化。

第 7 章：从放射学报告中识别缺血性中风、严重程度和位置的自然语言处理方法

快速、准确的数据提取可以显着改善在大型数据集中识别中风、分类关键临床报告和质量改进工作。然而，广泛使用的 ICD-9/10 代码经常错误地对缺血性卒中事件进行分类，并且不区分严重程度或位置。在本章中，我们的目标是开发一种工具，能够以准确和自动化的方式从非结构化文本中提取临床卒中信息。我们开发并报告了一个综合框架，该框架研究了简单和复杂的中风特异性自然语言处理 (NLP) 和监督学习技术的性能，以从射线照相文本中确定缺血性中风的存在、位置和严重度。我们将我们的贡献总结如下：

∙ 我们收集了来自两个大型学术医疗中心的 17,864 名患者的 60,564 份放射学报告。神经病学专家标记了 1,359 份报告，以确定中风的存在、位置和敏锐度。

∙ 我们应用标准文本特征化技术并开发神经血管特定词 GloVe 嵌入。

∙ 我们训练和验证各种二进制分类算法，以从放射学报告中识别感兴趣的结果。

∙ 我们证明了与深度学习配对的 GloVe 词嵌入在推导和验证队列中的三项任务的所有方法中具有最佳的识别性能。

本章的工作成果发表于 PLOS one [256] 中。