深度 | 斯坦福大学李飞飞等人谈AI医疗：病床边的计算机视觉

会员服务 ·

深度 | 斯坦福大学李飞飞等人谈AI医疗：病床边的计算机视觉

2018 年 4 月 10 日 机器之心

选自新英格兰医学杂志

作者：Serena Yeung、N. Lance Downing、Li Fei-Fei、Arnold Milstein

机器之心经授权编译

参与：Panda

近日，世界上最权威的医学杂志之一《新英格兰医学杂志》上出现了一篇来自斯坦福大学的文章。其中，来自这所大学多个实验室的研究员分享了自己对 AI 医疗的观点，其中包括斯坦福大学人工智能实验室主管李飞飞。经授权，机器之心对此文章做了中文编译。

病床边的计算机视觉——从辅助驾驶到保护病人安全的人工智能

1999 年，美国医学研究所（Institute of Medicine）发布了一份关于医院中可预防的病人伤害的报告，该报告促使公众开始要求对医疗机构中出现的可预防疾病和医疗错误进行公开记录与经济处罚。随后，陆续出现了各种待办事项清单、协议、根本原因分析、用于建立关于安全的文化的项目和早期形式的技术辅助方法。然而迄今为止，医院仍未达成零病人伤害的目标，尤其是涉及到偏离预期的病床边实践做法时——其涵盖范围从可靠的手部清洁到中心线插入。

通过改进临床过程、文化和狭隘的技术辅助，我们有可能接近零病人伤害的极限。如果我们认为疲惫的临床医生会可靠地执行复杂的医院治疗过程中的每个行为步骤，那我们就忽视了来自认知科学的基本原理，即人类的行为通常是基于易出错的「快速思考」模式。[1] 即使通过视频馈送查看重症监护病床的远程位置的医院工作人员也不能立即发现和纠正病床边行为差错，比如没有重置床栏、约束带或充气式康复靴。

计算机视觉也许能成为临床辅助方法的一大来源，这是人工智能（AI）领域中一个快速发展的领域。AI 领域广义上是指智能机器的发展，其既关注功能（比如理解口语），也重视发展性的方法（比如机器学习）。计算机视觉让机器可以看到并理解视觉世界。机器学习需要根据数据中的模式构建知识，而不是由人类程序员指定知识。当用于识别人、物体及其运动等计算机视觉任务时，需要相机和成像传感器为学习提供数据。比如，当有数千张根据品种标注的数字化的狗照片时，计算机可以通过机器学习方法在「训练」阶段消化这些数据并设计出一个能准确区分不同犬种的算法。

计算机视觉不再只是科学幻想，其快速发展可部分归功于「深度学习」，这是一种使用多层神经网络的机器学习方法，其分层计算的设计灵感部分源自生物神经元的结构。计算机视觉发展速度的一个参照是谷歌用于支持自动驾驶汽车的计算机视觉系统。在近期一个 12 个月的时间段里，其表现就从每 700 英里需要一次人类干预提高到了一次能完成超过 5000 英里的全自动驾驶（见下图）。如果计算机视觉可以检测到驾驶员的危险变道并安全控制车辆转向，那么它能否类似地通过分析运动来检测同样重要的临床医生行为，或病人活动中的意外偏差？

用于自动驾驶汽车的计算机视觉的进展，2014-2015 年。

这里的数据是谷歌自动驾驶汽车在需要人类干预之前自动行驶的平均英里数。数据来自加利福尼亚州车辆管理局的《自动化车辆参与报告（Autonomous Vehicle Engagement Reports）》。

计算机视觉在临床应用上的价值将会得到证明，我们有理由对此保持乐观。计算机视觉注定将在临床分析的医疗图像筛查方面站稳脚跟。最近有一项研究发现：计算机视觉在分类良性和恶性皮肤病变上的表现可以媲美 21 位经过认证的皮肤科医生。[2] 还有一些小型研究也在放射影像和病理学影像的解读上得到了类似的早期进展。除了静态的医学图像之外，研究也正在向解读临床医生和病人行为的视频数据方面延展。斯特拉斯堡大学的研究者为一间手术室配置了传感器，并在计算机识别手术流程上得到了准确的结果。约翰·霍普金斯大学的研究者在重症监护病房中应用了计算机视觉来量化病人活动能力的进展。

现在，来自斯坦福大学工程与医学院、露西尔•帕卡德儿童医院（LPCH）和 Intermountain LDS Hospital 的研究者正合作在一家医院的全院范围内部署计算机视觉应用，来实时识别临床医生的行为。由于工作人员和病人隐私方面的顾虑，这里没有使用视频相机，而是使用了深度传感器和热传感器来收集用于机器解读的数据（NEJM.org 上提供了视频和本研究的全部文本）。深度传感器可以收集反射的红外信号，基于传感器与人和物体的表面特征的距离来创建轮廓图像。但是，这种图像缺乏彩色视频所具有的那种表面细节。热传感器可以检测人和物体表面的温度的微小差异，能够创建揭示运动中的人体外形的热图，还能检测到呼吸微弱和尿失禁发作等生理事件，而且在光照和黑暗环境中都有效。这些研究者正在研究能否在保护隐私的同时，在医院病房中通过多种图像感知方法的组合来准确识别临床上重要的病床边行为。

斯坦福和 Intermountain 的研究者选择了手部清洁合规性作为他们的第一个计算机视觉识别的目标，因为这对临床治疗而言非常重要，但在管理上能做的事情很有限。[3] 尽管在识别手部清洁行为上还有使用其它数据类型（比如射频识别系统产生的数据）的方法，但这些研究者假设由于深度传感器能获取更丰富的连续图像数据，所以他们能无需中断临床流程就能提供更准确和更精细的识别。为了评估基于计算机视觉的方法的有效性，这些研究者使用深度学习训练了一个检测手部清洁事件的神经网络。因为训练过程需要向神经网络提供它可以学习的有标注图像，所以研究人员标注了病人房间门口的手部清洁事件和非手部清洁事件的深度图像。所得到的机器算法仅使用深度数据就能在 LPCH 以 95.5% 的准确度持续不断地检测是否是手部清洁事件。当应用在来自 LDS Hospital 的图像上时，在 LPCH 开发的算法无需使用本地收集的图像进行任何额外训练就能达到 84.6% 的准确度，尽管这两家医院在深度传感器在墙上安装的位置、洗手液分配器的类型和门口的特征上都存在差异。

这种使用来自环境传感器的数据的计算机视觉在评估病床边行为上有相对于当前系统的结构性优势，比如每月派「神秘顾客」观察手部清洁合规性或让护士观察医生是否按照规范进行了中心线插入。环境计算机视觉可以不停止地工作且不会疲劳，而且运行的可变成本非常低，也不受不完美的安全文化的影响。因为基于计算机视觉的识别系统可以被训练用来识别不同的病床边活动，所以如果与电子病历整合到一起，可能还能免去临床医生的让人沮丧的文档和数据录入任务，从而让他们能专注以病人为中心的活动。

由于 AI 在临床方面的某些早期应用效果不佳，所以招致了一些怀疑。[4] 威胁技术成功应用的因素包括数据质量差、机器生成临床决定的复杂计算步骤导致的低可解释性、无法配合常规的临床流程等等因素。通过收集不受人类文档错误影响的数据，计算机视觉有可能缓解其中一个威胁因素。鉴于医疗与信息技术的混合的经历，AI 应用需要克服这些难题才能从「炒作高峰」快速迈向医疗价值的稳步实现。如果开发和部署成功，环境计算机视觉将有潜力以超越人类的水平实时识别各种病床边的临床医生和病人行为 [5] 并发送用户设计的提示。这样的系统可以在医生或护士进入病人房间前未执行手部清洁时提醒他们，在复杂手术的过程中提醒外科医生不要漏掉重要步骤，或通知护士一位烦躁不安的病人马上就要拔出气管导管的危险情况。使用计算机视觉来持续监控病床边行为可以让医生和护士免去更适合机器的低价值工作，增强临床医生的工作——而不会取代他们。

在广泛采用这样的技术之前，还有很多情况有待了解。我们可以将其恰当地比作自动驾驶汽车：它们不会立即就主宰道路，然而可以非常确信它们在中期是可行的。尽管安全的医院护理存在独特的难题，但如果其它行业所见证的生产力提升能说明问题，那么计算机视觉可能会给临床治疗的质量和效率带来显著的贡献，同时能让临床医生将精力集中在精细的决策、与病人互动和提供共情式护理（empathic care）上。鉴于计算机视觉在其它行业内准确度和成本问题的快速改善，这种技术可能很快就将让我们离解决这个看似无法解决的问题更近一步，即：预期临床医生行为的日益增长的复杂性和人类的易错性之间不匹配的问题。