Nature子刊「深度学习医学计算机视觉」综述论文，Jeff Dean 等人最新 npj Digital Medicine论文

十年来，人工智能(AI)取得了前所未有的进步，这表明包括医学在内的许多领域都有潜力受益于人工智能技术从数据中提取的洞见。在此，我们综述了以深度学习为驱动力的现代计算机视觉技术在医疗应用方面的最新进展，重点关注医学成像、医疗视频和临床应用。我们首先简要总结一下卷积神经网络十年来在医疗保健领域取得的进展，包括它们实现的视觉任务。接下来，我们将讨论几个可能受益的医学影像应用实例——包括心脏病学、病理学、皮肤科、眼科——并提出继续工作的新途径。然后，我们扩展到一般医疗视频，重点介绍了临床工作流程可以整合计算机视觉以增强护理的方式。最后，我们讨论了这些技术在现实世界的临床部署所需要的挑战和障碍。

https://www.nature.com/articles/s41746-020-00376-2

引言

计算机视觉(Computer vision，简称CV)已有数十年的丰富历史，致力于使计算机有意义地感知视觉刺激。机器感知的范围很广，从识别边缘这样的低级任务，到理解完整场景这样的高级任务。过去十年的进步主要归功于三个因素: (1)深度学习(DL)的成熟，这是一种机器学习，能够从原始数据中对非常复杂的函数进行端到端学习; (2)通过GPUs3在本地化计算能力上取得了巨大进步; (3)用于训练这些算法的大型标记数据集的开源。这三个要素的结合使单个研究人员能够获得推进该领域所需的资源。随着研究团体的指数级增长，进步也随之增长。

现代计算机视觉的发展与许多科学领域中大量数字数据的产生相重叠。近年来医学取得了巨大的进步，这在很大程度上要归功于DL从大多数数据来源中学习许多任务的非凡能力。使用大数据集，CV模型可以获得多种模式识别能力——从医生级别的诊断到医疗场景感知。参见图1。

a. 多模态判别模型。可以构建深度学习架构，从图像数据(通常是卷积网络)和非图像数据(通常是通用深度网络)中共同学习。学习到的注释可以包括疾病诊断、预后、临床预测及其组合。b. 生成模型。卷积神经网络可以训练生成图像。任务包括图像到图像的回归(如图所示)、超分辨率图像增强、新图像生成等。

在这里，我们回顾了CV和医学的交集，聚焦于医学影像、医学视频和真实临床部署的研究。我们讨论了释放这些机会的关键算法能力，并深入研究了近年来取得的无数成就。适合CV的临床任务包括许多类别，如筛选、诊断、检测条件、预测未来结果、从器官到细胞的病理分割、监测疾病和临床研究。在整个过程中，我们考虑这一技术的未来增长及其对医学和医疗保健的影响。

计算机视觉

目标分类、定位和检测分别是指识别图像中目标的类型、当前目标的位置，同时识别类型和位置。ImageNet大规模视觉识别挑战(ILSVRC)是过去十年来在这些任务中取得进展的先锋。它创建了一个DL研究人员竞争和合作的大型社区，以改进各种CV任务的技术。第一个当代的、GPU驱动的DL方法，在2012年产生了这个社区增长的拐点，并在2017年比赛的到达顶点。值得注意的是，在此期间，分类准确性达到了人类水平。在医学领域，这些方法的细粒度版本已成功地应用于许多疾病的分类和检测(图2)。如果有足够的数据，其准确性往往与专家医生的水平相匹配或超过。同样，物体的分割有了很大的改进，特别是在具有挑战性的情况下，如在显微镜下对多种类型的重叠细胞的生物医学分割。在这些任务中使用的关键DL技术是卷积神经网络(CNN)——一种对图像数据的关键特征平移不变性进行硬编码的DL算法。许多其他CV任务也从这一进展中受益，包括图像配准(在相似图像中识别对应点)，图像检索(寻找相似图像)，以及图像重建和增强。处理医疗数据的特定挑战要求使用多种类型的人工智能模型。

这些技术很大程度上依赖于监督学习，它利用包含数据点(如图像)和数据标签(如对象类)的数据集。考虑到医学数据的稀疏性和访问困难，迁移学习——算法首先在一个大型且不相关的语料库(如ImageNet4)上进行训练，然后在感兴趣的数据集(如医学)上进行微调——对进展至关重要。为了减少与收集和标记数据有关的费用，正在开发生成合成数据的技术，例如数据增加和生成式对抗网络。研究人员甚至表明，众包图像注释可以产生有效的医学算法。最近，自监督学习——从数据点中提取隐式标签并用于训练算法(例如，预测由分割图像生成的瓦片的空间排列)——已经将该领域推向了完全的无监督学习，这种学习不需要标签。将这些技术应用于医学将减少开发和应用的障碍。

这些进步促进了CV的其他领域的增长，如多模态学习，它将视觉与其他形式(如语言)、时间序列数据和基因组数据结合在一起(图1a)。这些方法可以与3D视觉相结合，将深度相机变成保护隐私的传感器，面向病人更容易的部署设置，如重症监护室。在视频中，任务的范围甚至更广。应用程序，如活动识别和现场了解是有用的检测和反应的重要或不良临床事件。

医学成像

近年来，将计算机视觉技术应用于静态医学图像的论文已从数百份增加到数千份。由于这些专业诊断任务的视觉模式识别特性，以及高度结构化图像的日益可用性，一些领域已经得到了大量的关注，如放射学、病理学、眼科和皮肤科。

心脏病学

心脏影像学在临床诊断和工作流程中的应用越来越广泛。深度学习的主要临床应用包括诊断和筛选。在心血管医学中最常见的成像方式是心脏超声，或超声心动图。作为一种成本效益高、无辐射的技术，超声心动图由于直接的数据采集和解释而特别适合DL——它通常用于大多数急性住院设施、门诊中心和急诊室。此外，CT和MRI等3D成像技术用于了解心脏解剖，并更好地表征供需不匹配。CT分割算法甚至已经被FDA批准用于冠状动脉可视化。

病理学

病理学家在癌症的检测和治疗中起着关键作用。病理分析基于显微镜下对组织样本的目视检查-本质上是主观的。视觉感知和临床训练的差异可能导致诊断和预后意见的不一致。在这里，DL可以支持关键的医疗任务，包括诊断、预后预测和治疗反应、病理分割、疾病监测等。

皮肤病学

DL在皮肤科的主要临床任务包括病变特异性鉴别诊断，在许多良性病变中发现病变，并帮助跟踪病变随时间的增长。一系列的研究表明，CNNs在从良性皮肤病变中分类恶性皮肤病变方面可以与认证皮肤科医生的表现相匹配。这些研究相继测试了越来越多的皮肤科医生(25-7 57-93,157-94)，一致表明分类的敏感性和特异性匹配甚至超过医生水平。这些研究很大程度上局限于区分良性和恶性皮肤病变的二元分类任务，将黑素瘤与痣或脂溢性角化癌进行分类。

眼科学

近年来，人工智能在眼科应用的努力显著增加，数十篇论文证明了临床诊断和分析能力超出了当前人类的能力。潜在的临床影响是显著的——用于检查眼睛的机器的便携性意味着弹性诊所和远程医疗可以被用来将检测地点分布到服务不足的地区。该领域主要依靠眼底成像和光学相干断层扫描(OCT)来诊断和管理患者。

医学视频

外科的应用

CV可能在手术和内窥镜等程序领域提供重要的实用价值。深度学习的主要临床应用包括通过实时上下文意识、技能评估和培训提高外科医生的表现。

人类活动 CV可以识别医院和诊所等物理空间中的人类活动，用于一系列“环境智能”应用。环境智能指的是物理空间中持续的、非侵入性的活动意识，可以为临床医生、护士和其他医疗工作者提供帮助，如患者监控、自动文档记录和协议遵从性监控(图3)。

计算机视觉与传感器和视频流相结合，使临床和家庭环境中的许多安全应用得以实现，使医疗保健提供商能够扩大其监控患者的能力。主要是使用用于细粒度活动识别的模型创建的，应用程序可能包括ICU中的患者监测、医院和诊所中的适当的手卫生和物理动作协议、异常事件检测等。

临床部署

随着医学人工智能进入临床，它将同时有能力为社会做巨大的好事，并有可能加剧长期存在的不平等和使医学错误永久化。如果操作得当、合乎道德，医疗人工智能可以成为实现更公平医疗的飞轮——使用得越多，获得的数据越多，就会变得越准确、越普遍。关键在于理解模型所构建的数据以及它们所部署的环境。在这里，我们提出了在医疗保健领域应用ML技术时的四个关键考虑事项:数据评估、模型限制规划、社区参与和信任构建。

参考文献：

Szeliski, R. Computer Vision: Algorithms and Applications (Springer Science & Business Media, 2010).

LeCun, Y., Bengio, Y. & Hinton, G. Deep learning. Nature 521, 436–444 (2015). CAS Article Google Scholar

Sanders, J. & Kandrot, E. CUDA by example: an introduction to general-purpose GPU programming. Addison-Wesley Professional; 2010 Jul 19.BibTeXEndNoteRefManRefWorks

Deng, J. et al. ImageNet: A large-scale hierarchical image database. In 2009 IEEE Conference on Computer Vision and Pattern Recognition 248–255 (IEEE, 2009).

Esteva, A. et al. A guide to deep learning in healthcare. Nat. Med. 25, 24–29 (2019).

成为VIP会员查看完整内容