在过去的几年里,深度学习和医学的交叉点取得了快速的进展,特别是在医学图像的理解方面。在这篇论文中,我描述了三个关键方向,它们为医学图像理解的深度学习技术的发展带来了挑战和机遇。首先,讨论了专家级医学图像理解算法的开发,重点是迁移学习和自我监督学习算法,旨在在低标记医学数据设置中工作。其次,讨论了高质量数据集的设计和管理及其在推进算法开发中的作用,重点是使用有限手动注释的高质量标签。第三,讨论了医学图像算法的真实世界评估,以及系统分析临床相关分布变化下的性能的研究。总之,本论文总结了每个方向的关键贡献和见解,以及跨医学专业的关键应用。
图:CheXpert 任务是预测来自多视图胸片的不同观察结果的概率。
图:对比学习最大化同一胸部 X 射线图像的不同增强所生成嵌入的一致性。
未来几年,人工智能 (AI) 有望重塑医学。人工智能系统将常规用于早期检测疾病、改善预后并提供更成功的个性化治疗计划,同时节省时间和降低成本。在不久的将来,可以读取胸部 X 光片或组织病理学切片的算法将为医生管理工作清单,为无需亚专业培训的临床医生提供决策支持,并为人工智能驱动的远程医疗服务提供支持。在医院之外,人工智能技术将用于持续监测数百万患者的健康状况,并以前所未有的规模将患者安排就诊和跟进。
近年来,深度学习是一种人工智能形式,其中神经网络直接从原始数据中学习模式,在图像分类方面取得了显著成功[128]。因此,医学 AI 研究在严重依赖图像理解的专业领域蓬勃发展,例如放射学、病理学和眼科 [137]。过去几年,算法的进步和数据集的创建推动了这一进步。在算法方面,卷积神经网络架构和训练程序的改进使医学成像应用取得了进展。此外,这些算法的成功得益于对用于医学成像的大型标签数据集的管理。一些 AI 工具已经从测试转向部署,清除了监管障碍并赢得了行政支持 [20]。批准公共保险报销费用的医疗保险和医疗补助服务中心通过允许一些用于医学图像诊断的人工智能工具的首批报销,促进了人工智能在临床环境中的采用 [69]。然而,在回顾性数据集上成功理解医学图像的深度学习算法的数量与转化为临床实践的数量之间仍然存在很大差距 [116]。
本论文提出,广泛部署用于医学图像理解的深度学习算法存在三个关键技术挑战。该领域面临的第一个挑战是,当前算法的开发侧重于解决需要大量干净数据的狭窄任务,而不是解决医学中常见的具有噪声或有限标签数据的更广泛任务。该领域面临的第二个挑战是用于训练和验证模型的数据集是小型、嘈杂和同质的,而不是大型、高质量和异构的。该领域面临的第三个挑战是,当前的研究在训练算法的数据集分布的背景下验证算法,而临床部署需要在临床相关的分布变化下评估算法性能。
本论文涵盖了算法、数据集和研究方向的进步、挑战和机遇。
在过去的几年里,深度学习算法的一些初步成果可以达到医学专家水平,做出临床上重要的诊断,包括放射学、心脏病学、皮肤病学、眼科和病理学[139]。在第 2 章中,我描述了一种用于检测胸部 X 射线疾病的算法开发,我们证明该算法的性能可以与专业放射科医生相媲美。在第 3 章中,我描述了一种算法开发,该算法在专业心脏病专家的水平上通过心电图检测异常心律。在这两种情况下,我还描述了使训练端到端深度学习算法成为可能的大型数据集的集合。这些章节一起描述了胸部 X 射线判读和心律失常检测任务的专家级表现的首次展示。
算法开发的主要实际挑战之一是它们依赖于手动、耗时的数据注释。特别是对于需要大量注释专业知识的生物医学任务,开发监督深度学习算法所需的大规模数据标记尤其具有挑战性。对于医学成像,使用预训练 ImageNet [55] 模型的迁移学习一直是在有限的标记数据设置中开发算法的标准方法 [180]。在第 4 章中,我描述了对 ImageNet 架构的性能和效率以及胸部 X 光解读权重的首次系统研究。在第 5 章和第 6 章中,我还描述了自我监督对比学习如何实现医学训练模型的范式转变,其中相对少量的注释可以训练高度准确的模型。这些章节描述了迁移学习和自我监督学习如何解决医疗环境中有限标记数据的算法挑战。
大型、高质量的数据集在推动深度学习算法的应用和进步方面发挥着关键作用。在医学领域,数据集管理需要与医院管理员建立合作伙伴关系,建立安全处理和去识别数据的框架,以及数据组织和注释的策略。在第 7 章中,我描述了胸部 X 射线照片数据集的管理和合成转换,旨在评估 X 射线照片的算法性能,以在真实临床环境中进行基准稳健性测试。在第 8 章中,我描述了包含组织微阵列载玻片的数据集的管理和注释,以及来自癌症病例的临床和细胞遗传学数据,以发现预后生物标志物。
对于医学影像数据集,标注通常需要人工标注,成本高且难以获得,而通过自动化方法获取的标签可能会产生噪音。在监督计算机视觉模型解读医学图像的背景下,从自由文本放射学报告中高质量地自动提取医学状况至关重要。在第 9 章和第 10 章中,我描述了构建高质量放射学报告标记器的过程,这些标记器可以解决噪音和专家注释的有限可用性。
虽然医学图像解读中的大多数基础工作已经在训练它们的相同数据集分布上评估算法,但这些算法的部署需要了解它们在临床相关分布变化下的性能。在第 11 章中,我以胸部 X 光解读为例,描述了在存在未标记或训练期间存在的疾病的情况下,对深度学习模型性能的系统评估。在第 12 章中,我描述了对不同胸部 X 光模型的系统研究,该模型应用于未经任何微调的智能手机胸部 X 光照片和外部数据集。
总体而言,本论文展示了深度学习医学图像解读的进展,结合了以下方面的进步:(1)在大小标记数据集背景下的算法,(2)通过临床知情管理和标记的数据集,(3)和研究系统地评估算法在临床相关分布变化下的性能。
图:实验装置概述
图:测试了 8 种不同的胸部 X 光模型,应用于 (1) 胸部 X 光的智能手机照片和 (2) 没有任何微调的外部数据集时的诊断性能。所有模型都由不同的团队开发并提交给 CheXpert 挑战赛,并在没有进一步调整的情况下重新应用于测试数据集。