【巴黎理工博士论文】《面向不规则医疗时间戳数据的基于深度学习的多模态优化方法》2022最新148页博士论文

医院信息系统中电子病历（EHR）的广泛采用推动了定义大型数据库，这些数据库将各种类型的数据分组，如文本临床记录、纵向医疗事件和表格式的病人信息。然而，这些数据记录只在医疗咨询或住院期间填写，这取决于病人的健康、状态和当地的习惯。一个能够利用在不同时间尺度上收集的不同类型的数据系统，对于重建病人的健康轨迹、分析他的历史，并因此提供更好的临床护理至关重要。这篇论文的工作解决了医疗数据处理的两个主要挑战：a）学习表示连续就诊之间不规则时间的医疗观察序列；b）优化从临床记录中提取医疗事件。我们的主要目标是设计一个病人健康轨迹的多模态表示，以解决临床预测问题。我们的第一项工作是建立一个不规则医疗时间序列建模的通用框架，以评估在表示病人的健康轨迹时考虑医疗事件之间的时间间隔的重要性。为此，我们对顺序神经网络和不规则时间表示技术进行了比较研究。临床目标是利用法国数据库CaR´eDIAB（Champagne Ardenne R´eseau Diabetes）中1型糖尿病患者的HbA1c测量历史来预测视网膜病变并发症。研究结果显示，基于注意力的模型与时间间隙的软一热表示相结合，导致AUROC得分88.65%（特异性85.56%，敏感性83.33%），与基于LSTM的模型相比，提高了4.3%。在这些结果的激励下，我们将我们的框架扩展到较短的多变量时间序列，并预测了公开的MIMIC-III数据集中危重病人的院内死亡率。所提出的架构，即分层时间感知转化器（HiTT），将AUROC得分比普通转化器的基线提高了5%。在第二步，我们对从临床记录中提取相关的医疗信息以丰富病人的健康轨迹感兴趣。特别是，基于Transformer的架构在医疗信息提取任务中显示出令人鼓舞的结果。然而，这些大型模型往往需要一个大型的注释语料库。这一要求在医学领域很难实现，因为它需要获得私人的病人数据和高度的专家注释者。为了降低注释成本，我们探索了主动学习策略，这些策略在许多任务中都被证明是有效的，包括文本分类、信息提取和语音识别。除了现有的方法，我们定义了一个混合加权不确定采样（HWUS）的主动学习策略，该策略利用了基于转化器的方法学到的上下文嵌入来衡量样本的代表性。一个使用公开的i2b22010挑战数据集的模拟研究表明，我们提出的指标将注释成本降低了70%，以达到与被动监督学习相同的性能分数。最后，我们将多变量医疗时间序列和从MIMIC-III数据库的临床笔记中提取的医疗概念结合起来，训练一个基于多模态的变压器架构。院内死亡率任务的测试结果显示，在考虑额外的文本信息时，改进了5.3%。这篇论文通过减轻偶发医疗记录的负担和对自由文本笔记的人工注释，对病人的健康轨迹表示做出了贡献。简而言之，本研究有三个实际贡献：（1）支持电子健康系统，如报告、推理和有效决策，以利于整个病人管理。(2) 通过促进最先进的深度学习时间模型的发展和从临床自由文本资源中收集丰富的注释语料，使医学信息学的研究受益。(3) 旨在通过开发一个有效的基于多模态的Transformer架构，以实现准确的健康轨迹表示，以及一个创新的独立于领域的AL查询策略，推进医学领域的机器学习研究。

第1章简介

近年来，由于电子医疗记录（EHR）在医院信息系统中的广泛采用，医疗数据的可用性得到了提高。这些记录储存了病人在医院就诊或住院期间与医疗机构之间的所有交易信息。EHRs结合了三种类型的功能。第一类是结构化数据（如病人的年龄、入院日期、住院时间、测量值和离散的医疗代码），第二类是半非结构化数据，由储存特定信息的简短自由文本栏组成（如医生意见。第三类是非结构化数据，是指由医生写的叙述性临床笔记，报告病人的状态和他住院或就诊期间发生的医疗事件（包括家族史、诊断、疾病、手术和药物）。电子记录的第一个作用是在更短的时间内提供有关病人的最新信息，并通过促进医疗工作者之间的信息交流，协助医疗工作者提供更高质量的护理。此外，这些集中式系统通常长期部署在一个或一组医疗中心，从而形成一个具有数年病史的广泛的病人记录数据库。这些数据集是大规模统计分析的丰富信息来源，代表了弥合医学分析和机器学习技术之间差距的机会，而机器学习技术往往需要大量的观察数据来训练并达到最佳性能。因此，一些研究发现，这些数据的次要用途是进行预测性分析，以更好地了解疾病的演变，并建立健康监测系统，帮助医生为病人提供更好的护理[1]。特别是，深度学习方法已经成为在自然语言处理（NLP）[2, 3, 4]、图像分析[5, 6]和时间序列建模[7, 8, 9]等不同领域开展预测任务的相关选择。此外，大型私人数据仓库的建设[10, 11, 12]和MIMIC III或i2b2等开源医学数据库的发布[13, 14]，使研究人员能够采用和调整这些方法来解决临床预测问题，如风险预测[15, 16, 17]、干预建议[11, 18]、疾病进展[19, 20]或病人分型[10, 21]。这些方法大多集中在对一种类型的输入数据进行建模，可以是表格、文本、纵向或图像，而其他方法[22, 23, 24]则结合了几种类型，并表明全面的病人表述有助于获得更高的分数。

1.1 医学数据的挑战

医学预测任务的有效建模必须考虑处理现实世界临床数据库中包含的高度可变的观察数据的挑战。我们将这些挑战总结为六类：保护病人隐私、小而不完整的数据集、经济有效的注释过程、非标准化的数据结构、不规则的健康轨迹和多模式数据。事实上，电子病历包含了关于病人及其病情的高度敏感的个人信息。利用这些数据进行研究需要一个去识别的步骤，以保护病人的敏感属性，同时分享与深度学习研究相关的信息数据。此外，对敏感数据的保护和不存在一个从多个医疗中心收集数据的集中系统，导致了每个医院特有的小数据集的定义。这些小数据集限制了定义高性能和可推广的基于深度学习的预测模型的研究能力[25]。深度学习方法的一个特殊要求是收集有注释的数据，指导这种复杂模型的监督学习过程。当考虑到临床数据时，这个过程是具有成本效益的，因为它需要有足够的医学知识的高级专家，导致训练集更小。另一方面，医院使用不同的标准来组织其信息系统中的医疗数据，并使用不同的生物医学本体论[26, 27]来对疾病、程序和治疗等概念进行分类。这些系统的差异对于设计可在不同医疗系统中部署的通用模型是一个额外的障碍。即使考虑到统一的数据源，时间的不规则性也是这种现实世界临床数据的另一个常见现象。事实上，医疗观察的记录是偶发的，取决于病人对医院的访问，产生的护理历史因人而异，取决于每个病人的健康状态和当地的习惯。因此，产生的数据包括不规则的健康轨迹，其长度不一，连续观察之间的时间也不同。最后，健康轨迹中的每一个时间点都代表着一个护理事件，其中有各种类型的数据（如文本报告、治疗处方、实验室测试单、实验室结果，以及医疗参数、诊断和行政代码的记录），这些数据是由几个护理提供者在病人管理期间产生的。在一个通用模型中利用所有这些不同的类型是具有挑战性的，因为它需要设计一个多模式系统，能够从每个条目中学习重要的信息，并避免数据冗余。

1.2 研究背景

在对单一或多种类型的数据进行建模时，无论是图像、文本还是纵向数据，都有一些研究工作发表，以解决医疗数据的挑战。为了保护病人的个人信息，Andrew等人[28]分析了应用于结构化EHRs数据的多种隐私保护技术（如同态加密和差分隐私），用于计算深度学习的预测分数。此外，保护临床笔记文本中的敏感信息也是一个活跃的研究领域，yang等人[29]设计了一个系统的回顾，总结了为自动去识别而提出的深度学习方法。为了解决小数据集的限制，一些工作提出了基于转移学习的技术[30, 31, 32]，以利用预先训练的模型所学到的知识，并将其扩展到新的数据集。另一个常见的解决方案是多任务学习[31, 33, 34]，通过利用相关任务的训练信号中包含的特定领域的信息来提高泛化能力。

对EHRs数据中包含的信息进行重新排序，对于评估病人的护理路径和了解疾病的演变至关重要。数据的异质性和不规则的健康轨迹是定义病人时间线的准确时间表述的两个主要挑战。大多数现有的工作依赖于行政代码形式的纵向数据，以及在每个护理事件中产生的数值[10, 35, 36, 33]。因此，他们将时间线定义为一个多变量的时间序列。同时，其他工作[22, 11, 23]考虑了每次入院时产生的临床记录，以丰富病人的护理路径。第一组[23, 22]学习了整个笔记的嵌入表示，并将得到的向量作为额外的特征添加到时间序列中，以利用文本信息。另一方面，第二组[11]定义了一个混合模型，其中第一阶段是一个提取医疗概念的NLP模型。然后，这些概念被添加到时间序列中，用于第二阶段的学习，代表病人的健康轨迹。最近NLP领域的进步导致了强大的架构的定义，使其能够学习单词的上下文嵌入，并在下游任务（如概念提取）中获得高性能的分数。特别是，ClinicalBERT[37]和BioBERT[38]已经改编了著名的NLP模型BERT[39]，它是基于Transformer架构[40]。首先，他们在大型医疗文本语料库上对模型进行了预训练，以获得单词的上下文表示，然后在各种有监督的下游任务上对这个预训练的架构进行了微调。特别是，这些模型在医学概念提取任务中表现出更好的性能分数（范围在78%到94%之间）。

然而，定义这样的高性能模型依赖于广泛的注释过的临床笔记的可用性，以及随之而来的每个感兴趣的类别的例子的数量。在过去的十年中，建立这种注释语料库的研究工作[41, 42, 43, 44]一直在增加，一些作品发表了注释指南，使他们能够产生高质量的标记数据。这个过程很耗时，而且成本很高，因为它经常需要医学专家的手工注释，而这些专家的可用性有限。主动学习[45]是一个很有前途的研究方向，它在图像注释中显示了其有效性，并被扩展到一些应用中，如医学文本注释。其目的是通过选择加速深度学习模型的学习迭代的例子来减少需要手动注释的训练数据量。它将医学专家置于迭代过程的中心，允许他纠正模型的预测，然后考虑到他的反馈，重新训练模型。主动学习策略的核心部分是定义一个指标，通常被称为效用函数，它对模型的预测进行排序，并为下一次的再训练迭代选择信息量最大的例子。两个突出的采样策略是基于不确定性的，和基于密度的[46, 47, 48]。

重建的时间线是偶发的，连续观察之间的时间间隔因病人而异，甚至在同一病人的健康轨迹中也是如此。目前大多数文献[49, 50, 51, 52]是基于对具有固定时间间隔的纵向医疗事件的定期快照的统计分析，每月或每半年一次。这些模型需要有时间上等距的医疗事件。因此，对这些数据进行统计后分析时，需要采用归因方法来填补缺失的数值。这些方法的性能在很大程度上取决于患者时间序列的完整性和推断方法的准确性。与其用数据归因方法来填补实际观察值之间的空白，不规则性也是我们应该考虑的有价值的信息，以了解病人健康状况的演变。按照这一思路，最近的研究[12, 53, 54, 50]利用在序列建模方面取得的进展，利用循环神经网络（RNN）加上两个连续事件点之间的时间间隙的表示，进行下游的医疗任务，如风险预测、程序推荐和病人表型。

1.3 目标

本论文的主要目标是建立一个多模态深度学习架构，利用EHR数据中包含的各种类型的信息，学习表示病人的时间线。随后的目标是通过考虑这种环境的挑战，在现实世界的临床应用中验证这个架构。主要来说，从第1.1节提出的挑战中，我们重点设计了一个框架来表示病人健康轨迹中的时间不规则性，并提出了一个主动学习策略来降低基于深度学习的医疗概念提取模型的注释成本。

1.4 研究问题

为了实现所提出的目标，这项工作涉及以下研究问题。

RQ1：如何对患者健康轨迹中观察到的不规则时间进行建模？
RQ2：是否有可能设计一个不规则医疗时间序列建模的通用框架？
RQ3：如何表示临床笔记中的信息以丰富患者的健康轨迹？
RQ4：什么是能够降低基于Transformer的医疗信息提取方法的注释成本的最佳主动学习策略？
RQ5：多模态架构如何影响临床预测任务的性能？

这些研究问题探讨了使用神经网络表示病人时间线的不同方法，并测量了它们对现实世界医疗数据的影响，考虑到事件的不规则记录和医疗文本注释的成本。

1.5 贡献

本论文工作的第一部分涉及临床事件时间序列中不规则时间戳的建模。由此产生的主要贡献是实现了一个不规则时间序列的端到端分类的通用框架。该框架处理数字和分类的医疗事件，并支持病人的元数据。此外，它收集了最先进的序列深度学习模型和时间表示技术。利用这个框架，我们对1型糖尿病患者的糖尿病视网膜病变预测进行了实证研究，基于12种基于时间神经的方法的比较研究。数据收集自法国数据库CaR´eDIAB[52]，包括1,207个1型糖尿病患者的HbA1c记录的高变量单变量医疗时间序列。

在第二部分，我们表示了临床记录中包含的信息，并评估了它们在预测模型中的重要性。为此，我们对深度学习和传统的机器学习方法进行了医学文本分类的比较研究[15]。结果显示，当应用基于DL的方法从病人的临床笔记中预测健康获得性感染（HAI）时，其有效性很高。然而，错误分析显示，丢失的阳性病例是由于我们的模型中缺少时间管理。这些发现促使我们探索信息提取架构，从每个临床笔记中选择相关的医疗事件来丰富病人的时间线。这些技术通常需要大量的标记数据，这在处理医疗报告时是非常经济的。因此，我们的第二项工作旨在定义一种深度主动学习策略，以减少用于医疗事件提取的临床笔记的标注成本。具体来说，我们评估了基于转化器的医疗事件提取模型的主动学习策略。

最后，第三项工作包括设计一个多模态架构，即Multi-HiTT：基于多模态的层次化时间感知转化器。这个架构通过结合多变量事件时间序列、病人静态信息和从临床笔记中提取的医学概念，利用病人医疗记录中包含的所有信息，为临床预测任务建立一个准确的病人代表。这项工作的主要贡献是设计了一个结合结构化特征和自由文本医学概念的分层时间性和多模式的病人代表。利用已实现的时间框架，我们通过研究重症监护室收治的病人的院内死亡率预测，验证了所提出的Multi-HiTT架构。我们特别考虑了由开源数据集MIMIC-III[13]提供的5120个不规则多变量时间序列。

1.6 概要

本论文分为三个部分。第一部分提供了促使我们做出贡献的相关工作，并分两章组织。在第一章中，我们建立了一个关于代表不规则临床时间序列的时间感知深度学习模型的调查。第二章详细介绍了用于命名实体识别的基于神经的架构和主动学习策略。另一方面，第二部分揭露了我们的三个主要贡献。第一章描述了已实现的时间框架，允许医学研究团队进行比较研究，并根据他们的数据集和预测任务选择最佳的DL模型来对IMTS进行分类。第二章定义了一种新的主动学习策略--动态混合加权不确定性采样（Dynamic-HWUS），旨在减少用于训练基于Transformer的命名实体识别模型的临床笔记的注释成本。第三章介绍了Multi-HiTT架构，该架构旨在结合不同层次的时间性和输入数据的类型，以建立一个准确的病人的代表。最后，第三部分包括三项验证我们提出的方法并使用真实世界的临床数据库的研究，讨论其结果，总结论文工作，并介绍对未来工作的建议。

1.7 符号

我们注意到p∈P是医学研究中考虑的病人集合。我们对病人p的多变量医疗时间序列定义如下：

多变量时间序列(Xp,t)1≤t≤N由状态序列Xp,t组成，其中xp,t∈Rq是一个密集的嵌入向量，代表在离散时间步长t观察到的不同类型的事件，q是向量空间维度，N是步长数，一般等于病人的就诊次数。
离散时间步骤t的状态向量可以表示为三个向量的组合。，其中np,t是文本笔记的表示向量，up,t表示数值向量，zp,t与医疗事件的编码ID有关，dp对应于静态的病人信息，如人口统计学。为了简化符号，我们把时间戳t的病人向量称为。