《用于胸部 X 射线自动肺部疾病分析的深度学习》汉堡科技大学博士论文

摘要

胸部 X 射线 (CXR) 成像是当今放射科最常见的检查类型。自动疾病分类可以帮助放射科医生减少工作量并提高患者护理质量。医学图像分析在过去十年中经历了范式转变，这主要归功于卷积神经网络 (CNN) 在许多图像分类、分割和量化任务中实现超人性能的巨大成功。 CNN 正在应用于 CXR 图像，但在临床环境中应用时，高空间分辨率、缺乏具有可靠基本事实的大型数据集以及种类繁多的疾病是重大的研究挑战。值得注意的是，这些挑战激发了本论文的新颖贡献。

本论文对 CNN 的四个主要设计决策进行了系统评估和分析：损失函数、权重初始化、网络架构和非图像特征集成。为了利用年龄、性别和视图位置等信息，提出了一种整合这些信息以及学习图像表示的新颖架构，并为 ChestXray14 数据集产生了最先进的结果。此外，研究了两种先进的图像预处理技术以提高 CNN 的性能：骨抑制（一种从 CXR 中人工去除胸腔的算法）和自动肺野裁剪（一种提高 CNN 输入分辨率的方法）。两种方法结合起来略微增加了 OpenI 数据集的平均结果。最后，**开发了一个框架来研究用于智能工作列表优先级的 CNN，是否可以优化放射学工作流程，**并减少 CXR 中关键发现的报告周转时间 (RTAT)。仿真表明，使用 CNN 进行紧急优先级排序可以将气胸等关键发现的平均 RTAT 降低两倍。总之，对特定的设计决策进行了改进，例如网络架构、图像预处理和使用小型数据集进行 CXR 分析的训练。结果用于证明关键发现的平均 RTAT 显着降低，这可以大大提高患者护理的质量。

引言

在英国，护理质量委员会最近报告说，在过去的 12 个月中，仅亚历山德拉女王医院一名训练有素的放射科专家就没有对总共 26,345 次胸部 X 光 (CXR) 和 2,167 次腹部 X 光进行正式审查。结果，三名肺癌患者因胸部 X 光检查未得到适当评估而遭受重大伤害 [Care Quality Commission, 2017]。

图 2.2：典型的检查类型，其中两个对应的胸部 X 射线图像取自一名患者。 (a) 显示正面 PA 胸部 X 光片和 (b) 侧面胸部 X 线片。在两张 X 光片中，可以看到解剖结构：(1) 气管、(2) 锁骨、(3) 肩胛骨、(4) 肋骨、(5) 心脏、(6) 横膈膜和 (7) 构成脊柱的椎骨.示例图像取自 OpenI 数据集 [Demner-Fushman et al., 2016]。

图 2.3：基于气胸的高分辨率和低分辨率胸部 X 光片的比较。 (a) 以 2828 × 2320 像素的全图像尺寸显示原始胸部 X 光片。在 (b) 中，显示了 (a) 的两个区域，放大了 10 倍。黄色箭头指向胸膜边缘，表示气胸。为了比较，(c) 显示 (a) 通过双线性插值缩小到 256 × 256 像素的图像大小。 (d) 显示与 (b) 相同的放大区域，胸膜边缘不再可见。示例图像取自 OpenI 数据集 [Demner-Fushman et al., 2016] (ID: 3378)。

作为一种诊断工具，医学成像是近几十年来医学领域最具革命性的进步之一。通过提供人体内部的视觉表示，医学成像可以帮助放射科医生做出更早、更准确的诊断。因此，可以更有效地治疗疾病以提高患者护理质量。多年来，医学成像在测量速度、空间分辨率和对比度方面都有所提高。拥有这个有用的工具需要有足够的能力让专家放射科医生评估相关数据。我们已经遇到了无法让放射科医生审查所有 X 射线图像的情况 [Care Quality Commission, 2017;皇家放射学院，2018]。随着各种医学成像模式产生的数据量不断增加 [Kesner et al., 2018] 和不断增长的世界人口 [United Nations DESA, 2019]，预计对专家阅读能力的需求将会增加。在放射科可用的成像方式中，平片是最常见的，而胸部 X 射线是最常见的检查类型 [Bundesamt für Strahlenschutz, 2020; NHS 英格兰，2020]。

自动图像分析工具使放射科医生能够显着减少他们的工作量并提高患者护理质量。早期的方法通常结合手工特征表示和分类器。不幸的是，开发特征提取方法需要大量的领域专业知识，并且通常是一个耗时的过程。然而，深度学习可能会改变这些要求。2012年Krizhevsky 等人[2012] 提出了 AlexNet——一种卷积神经网络——用于计算机视觉中的图像分类，并在 ImageNet 挑战赛中大获全胜。由于计算能力的提高（即图形处理单元（GPU）的并行计算）和大量可用数据，这是可能的。这种成功有助于复兴神经网络作为机器学习的一种方法，机器学习是人工智能 (AI) 的一个子领域。在计算机视觉中，深度学习已经证明了它能够以超人类的准确度分析图像 [He等人, 2016;Simonyan等人，2015； Szegedy 等人，2014 年；Tan等人，2019]。医学图像分析领域正在深入探索深度学习。

本文结构

以下段落概述了本文的结构，并概述了每一章及其贡献。第 2 至第 4 章总结了背景信息和重要文献。然后，第 4 章到第 7 章介绍了为本论文进行的研究。最后，第 8 章以总结和对未来的展望结束了本文。

第 2 章简要介绍了医学成像及其自动化分析。此后，对深度学习的胸部 X 射线分析进行了全面回顾。作为深度学习快速发展的最重要推动力之一，我们讨论了 ChestX-ray14 [Wang et al., 2017] 和 OpenI [Demner-Fushman et al., 2016] 等开源数据集。随后讨论了由自然语言处理 (NLP) 生成的噪声注释以及高分辨率胸部 X 射线数据所带来的挑战。最后，我们在当前挑战的背景下检查了胸部 X 射线分类的临床应用。

第 3 章概述了神经网络的历史动机和时间顺序。解释了它们的基本元素——人工神经元，并讨论了不同类型的激活函数。随后，解释了前馈神经网络的原理以及分类与回归任务之间的差异。为了计算最佳权重参数变化——并作为神经网络的更新规则——Rumelhart 等人。 [1986] 提出了反向传播。最后，本章解释了梯度下降如何用作神经网络的优化技术，并概述了该方法在神经网络优化方面的重大改进。

第 4 章描述了标准前馈神经网络的主要变化，这些变化导致了深度神经网络及其在高维信号中的成功应用——尤其是在图像处理中。解释了卷积神经网络作为分层特征提取器的基本理解以及在高维图像中的应用。为了实现这一点，提出了最先进的网络架构（例如，卷积、池化和归一化层）的重要构建块。当在非常深的网络中天真地堆叠层时，使用梯度下降进行优化存在梯度爆炸和消失的风险。梯度消失通过残差连接和密集连接架构来解决——这两者都允许堆叠额外的层。这种高级模型通常有数百万个参数需要训练；因此，它们很容易过度拟合训练数据。出于这个原因，数据增强通常用于人为地扩大数据集。这也有助于提高神经网络的泛化性，因为模型对于仿射变换变得不变。训练模型后，评估其泛化能力和性能非常重要。首先，不同的重采样方法（例如，k 折交叉验证或蒙特卡洛子采样）可以将数据集拆分为训练测试子集，这有助于泛化评估。其次，使用接收器操作曲线和精确召回曲线等评估指标来量化模型在疾病分类中的性能。

第 5 章深入介绍了不同的训练方法及其在胸部 X 线疾病分类中的应用。在该领域的先前工作的基础上，考虑了迁移学习，无论是否进行微调，以及从头开始训练专用 X 射线网络。由于 X 射线数据的高空间分辨率，我们提出了一种经过调整的 ResNet-50 架构，具有更大的输入尺寸，并与其他模型相比展示了其优越的性能 [Baltruschat et al., 2019c]。由于放射科医师通常包含比胸部 X 射线更多的信息来进行诊断，因此模型架构会进一步改变，并且引入了一种新模型以包含有助于患者信息采集的非图像特征。最后，通过使用 Grad-CAM 分析模型，突出了 ChestX-ray14 数据集的局限性。这些发现激发了以下章节的贡献。

图 5.5：两个示例图像的 Grad-CAM 结果。在顶行中，气胸的位置用黄色框标记。如旁边的 Grad-CAM 图像所示，模型对预测的最高激活位于正确区域内。第二行显示了一个负例，其中负责最终预测“气胸”的最高激活位于排水管。排水管标有黄色箭头。这表明经过训练的卷积神经网络将引流检测为“气胸”的主要特征。

图 5.6：本论文中最佳模型与其他组的比较。病理按照所有组的平均 AUROC 增加进行分类。对于本文提出的模型，将所有折叠的最小和最大 AUROC 报告为误差条，以说明随机数据集拆分的影响。

第 6 章处理胸部 X 射线数据的标准化，以在小型数据集（即只有几千个样本）上进行训练——OpenI 数据集 [Demner-Fushman 等人，2016 年]。此外，还研究了增加输入数据分辨率对神经网络的影响。手动标记的数据集通常具有较小的样本量——尽管 OpenI 数据集是最大的数据集之一（3,125 张图像）——这使得从头开始训练深度神经网络变得复杂。作为第一种预处理方法，提出了基于分割和边界框计算的肺野裁剪。这一步骤大大减少了胸部 X 射线外观的变化，并提高了它们作为输入图像的分辨率，因为缩小的因素也降低了。第二种方法是骨抑制，可以通过从胸部X光片中去除骨骼结构来减少信息叠加。值得注意的是，这两种方法都有助于提高疾病分类性能 [Baltruschat et al., 2019e]。此外，本章概述了放射科专家为胸部 X 光片生成注释的过程以及与观察者间变异性相关的问题 [Ittrich et al., 2018; Steinmeister 等人，2019]。

图 6.2：肺田间种植方法概述。原始胸部 X 射线图像 (a) 由中心凹卷积神经网络处理以生成肺野分割 (b)。 (c) 以紫色显示计算的两个最大连接区域周围的边界框。在（d）中，由于分割掩码中的错误，蓝色区域强调了边界框的安全区域。 (e) 显示了最终的裁剪图像，(f) 显示了骨抑制和肺野裁剪的组合。

图 6.3：用于组合高级预处理图像的集成方法。四个 ResNet50-large 模型在不同的图像数据上进行了训练：原始、软组织、肺野裁剪 (LFC) 和使用 LFC 的骨抑制 (BS)。每个模型预测了测试集 Ntest 中五个裁剪图像（即中心和所有四个角）的分数，具有八个类别。此后，对所有模型的预测分数进行平均，以获得最终的多标签分类结果。

图 6.6：正常训练模型 (a) 和使用预处理图像训练的模型 (b) 的 Pearson 相关系数。正常模型之间的相关性已经很高，除了模型“Normal-2”，它似乎收敛到不同的最优值。使用预处理图像训练的模型具有较低的相关性（大约 92%）。这表明（b）中显示的模型的集合可以对分类性能产生更大的影响。

第 7 章介绍了将深度学习的疾病分类转化为特定的临床应用。在获得胸部 X 光片后，通常会将它们分类到工作清单中。根据每个放射科的工作流程，该工作清单按采集时间或手动优先级标签进行排序，并且在很大程度上，放射科医生按顺序处理他们的工作清单项目。因此，工作清单只按照先进先出的原则进行处理。一种最先进的胸部 X 光疾病分类算法可以自动分配优先级标签，这可以大大改善工作列表的排序。本章介绍了一种用于模拟临床工作日的新颖模拟框架，它突出了自动优先工作列表的效果。该框架使用来自汉堡-埃彭多夫大学医学中心的经验数据，可以模拟一个临床工作日，其中包括胸部 X 射线生成过程、胸部 X 射线的自动疾病分类以及放射科医师生成最终报告所需的时间 [ Baltruschat 等人，2020b]。值得注意的是，使用了第 5 章和第 6 章中提出的用于胸部 X 线疾病分类的改进方法。

图 7.6：报告所有八种病理结果和正常检查的周转时间 (RTAT)，基于四种不同的模拟：FIFO（绿色）、Prio-lowFNR（黄色）、Prio-lowFPR（紫色）和 Prio-MAXwaiting（红色），最长等待时间（浅紫色）。绿色三角形标记平均 RTAT，而垂直线标记中值 RTAT。每个 simu 的最大 RTAT。

第 8 章总结了论文及其主要贡献。它还提出了本文提出的新问题。