CV技术在医疗领域中有哪些应用？Salesforce、谷歌、斯坦福综述文章登上Nature子刊

会员服务 ·

CV技术在医疗领域中有哪些应用？Salesforce、谷歌、斯坦福综述文章登上Nature子刊

2021 年 1 月 16 日 机器之心

选自npj digital medicine

作者：Andre Esteva、Katherine Chou等

机器之心编译

编辑：魔王、小舟

计算机视觉在医疗领域得到了广泛应用，如医学影像处理等。

最近，来自 Salesforce AI 研究院、谷歌、斯坦福大学等机构的研究人员合作撰写了一篇文章，综述了基于深度学习的计算机视觉技术在医疗领域中的现状与应用。该论文发表在 Nature 旗下期刊 npj Digital Medicine 上。

机器之心选取文章的部分内容为大家展开介绍。

论文地址：https://www.nature.com/articles/s41746-020-00376-2#Sec6

摘要

十年来，人工智能取得了前所未有的进展，包括医学在内的许多领域都有望从中受益。在该论文中，研究者调查了以深度学习为支撑的现代计算机视觉技术在医学领域的最新进展，重点包括医学成像、医疗视频和临床部署。

该论文首先简要概述了卷积神经网络的十年进展，包括它们在医疗领域中实现的视觉任务。接下来，论文讨论了一些有益的医学成像应用示例，涉及心脏病学、病理学、皮肤病学、眼科医学，并为后续研究工作提出了新的方向。此外，研究者还介绍了医疗视频，重点介绍了如何将临床工作流程与计算机视觉结合来改善医疗效果。最后，论文讨论了在现实世界中部署这些技术面临的挑战和障碍。

图 1：医疗领域中的计算机视觉任务示例。

计算机视觉

目标分类、定位和检测分别是指识别图像中的目标类型、确定目标所在位置，以及同时确定目标的类型和位置。过去十年，ImageNet 大规模视觉识别挑战赛（ILSVRC）是促成这些任务进步的先锋。它创建了一个由深度学习研究人员组成的大型社区，社区中的研究者相互竞争和合作以改进各种 CV 任务的技术。

2012 年，首个使用 GPU 的现代 DL 方法成为该社区发展的拐点，它预示着该领域接下来几年的显著进展，直到 2017 年 ILSVRC 竞赛举办了最后一届。值得注意的是，在此期间，分类准确率已经达到了人类级别。在医学上，这些方法的细粒度版本已成功用于许多疾病的分类和检测，如下图 2 所示。

图 2：医师级别的诊断性能。

医学成像

近年来，使用计算机视觉技术处理静态医学成像的论文从数百篇增长至几千篇。其中，放射学、病理学、眼科医学和皮肤病学等几个领域受到了广泛关注。

医学影像的独特特征给基于 DL 的计算机视觉提出了许多挑战。例如，图像可能非常庞大，数字化组织病理学图像可以产生约 100000 x 100000 像素的千兆像素图像，而典型的 CNN 图像输入约为 200 x 200 像素。

目前已有数十家公司获得美国 FDA 和欧盟 CE 的医学成像 AI 批准。随着可持续商业模式的建立，商业市场已经开始形成。例如，印度和泰国等地欢迎部署糖尿病性视网膜病变筛查系统等技术。如今这种快速发展已经达到了直接影响患者治疗效果的地步。

心脏病学

心脏成像越来越广泛地应用于临床诊断等流程中，深度学习的关键临床应用包括诊断和筛选。心血管医学中最常见的成像方式是心脏超声或超声心动图。作为一种经济高效的无辐射技术，超声心动图因其直接的数据采集和解释功能而特别适合应用 DL 技术，它常被用于急诊住院设施、门诊中心和急诊室中。

病理学

病理学家在癌症的检测和治疗中起着关键作用。病理分析（基于显微镜下组织样本的目视检查）本质上是主观的，视觉感知和临床训练的差异可能导致诊断和预测意见不一致。

DL 可以支持很多重要的医疗任务，包括诊断、预测病情和治疗效果、疾病监测等。

近年来，医疗领域已经采用了亚微米级分辨率的组织扫描仪，该仪器可以捕获千兆像素的全视野数字切片（whole-slide images ，WSI）。这种发展和计算机视觉的进步促成了 AI 驱动的数字组织病理学的研究和商业化活动。该领域具有以下潜力：

通过提高日常任务的效率和准确性来克服人类视觉感知和认知的局限性；

从人眼看不见的形态结构中开发出疾病和治疗的新特征；

将病理学与放射学、基因组学和蛋白质组学测量结合起来，以改善诊断和预测效果。

皮肤病学

皮肤病学中 DL 的关键临床任务包括特定于病灶的鉴别诊断、在良性病灶中发现与病灶有关的问题，以及帮助跟踪病灶随时间的增长。一系列研究表明，CNN 在归类良性与恶性皮肤病变时的性能可以媲美皮肤科医生。这些研究依次测试了越来越多的皮肤科医生，并且始终展示出匹配甚至超过医师水平的分类敏感性和特异性。但这些研究很大程度上局限于二分类任务，如鉴别良性与恶性皮肤病变。

最近，这些研究还包括了对数十种皮肤病的诊断，包括非赘生性皮肤病（如皮疹），其分类器输入还囊括了非视觉元数据（如病人的人口统计特征）。

将这些算法集成到临床工作流程可以使其支持其他关键任务，包括对具有多个病灶的病人进行大规模恶性病变检测等。这一领域仍待探索。

眼科学

近年来，眼科领域出现了很多 AI 研究，许多论文展示了其 AI 成果超出当前人类的临床诊断和分析能力。这带来的潜在影响是巨大的，眼睛检查仪器的便携性意味着可以利用临时诊所和远程医疗为偏远地区带去检测点。该领域极大地依赖眼底成像和光学相干断层扫描 (OCT) 来诊断和管理病人。

CNN 可以准确诊断许多疾病。眼睛包含大量人类无法解释的特征，包含有意义的医疗信息，而 CNN 可以获取这些特征。CNN 还可以基于眼底成像分类多种心血管和糖尿病风险因素，包括年龄、性别、收缩压等。这表明未来 AI 研究有可能基于眼部图像预测非眼部信息，带来医疗领域的范式转变，即通过眼部检查判断眼部和非眼部疾病，而这是人类医生目前无法做到的。

医疗视频

手术应用

计算机视觉可以在手术和内窥镜检查等医疗步骤中提供极大的用途。深度学习在医疗方面的重要应用包括通过实时环境感知、技能评估和训练来提升手术性能。早期研究主要在基于视频的机器人手术和腹腔镜手术中开展。另一个方向则是利用计算机视觉识别不同的手术阶段，从而开发环境感知的计算机辅助系统。

此外，计算机视觉还开始出现在开放手术中。这里的挑战在于视频捕捉视角的多样性（如头戴式、侧视和悬吊式摄影机）和手术类型的多样化。对于所有类型的手术视频，将 CV 分析转换为可以提升治疗效果的工具与应用是下一个研究方向。

人类活动

计算机视觉可以识别物理空间中的人类活动，可用于大量「环境智能」应用。环境智能指连续、非侵入式地感知物理空间中的活动，从而为医生、护士等医疗工作人员提供帮助，如病人监测、自动化文档等，参见图 3。

图 3：环境智能。计算机视觉与传感器和视频流让很多安全应用在临床和居家环境中变为了可能，为医护工作者扩展了监测病人的能力。这些应用主要使用细粒度活动识别模型构建，可能包括 ICU 中的患者监测、医院和诊所中的洗手动作监测、异常事件检测等。

环境感知还可以在医院之外应用，帮助更多人及时获取医疗服务。例如，它可以通过监测日常活动中的异常情况来帮助独居老人及时获取医疗服务。此外，计算机视觉技术还有望成为远程生理指标测量的工具，例如系统利用视频来分析心率和呼吸频率。

临床部署

医疗 AI 的应用可以给社会带来福利，也有可能加剧长期存在的不平等。当得到恰当、符合伦理的使用时，医疗 AI 可以促成更公平的医疗环境。而其关键在于理解模型基于什么样的数据构建、在什么样的环境中部署。该论文展示了将机器学习技术应用于医疗领域时需要注意的四个要点：数据评估、模型局限性解决、社区参与和信任建立。

数据质量很大程度上决定了模型质量，发现数据中的不公平并解决将带来更公平的医疗环境。目前有多种移除数据偏见的方法。个体层面上的偏见可以通过专家讨论和标注判定来解决，而群体层面偏见则需要缺失数据补足和分布漂移来解决。国际多机构评估是确定模型在多种不同群体、医疗设备、资源设置和实践模式间泛化性能的鲁棒方法。此外，使用多任务学习训练模型执行多种任务也会使模型更具普遍用途和鲁棒性。

透明报告可以解决模型的潜在缺陷，帮助解决模型局限性。然而，仅仅报告，以及在通用数据集上实现强大性能并不足够，我们还应理解模型失败的特定实例。一种解决方案是将评估人口统计性能与显著图结合起来，从而可视化模型关注的地方，发现潜在的偏差。下图 4 展示了模型部署中的偏见。