取代人类医生？AI给你做的诊断你敢信吗

2017 年 12 月 7 日 AI100 大家都在关注

翻译 | ziqi zhang

编辑 | Donna，波波

Luke Oakden-Rayner 是澳大利亚知名学府阿德莱德大学的在读医学博士生、放射线学专家，曾发表过多篇医疗人工智能方面的论文。他在顶级杂志《Nature》上发表的一项研究成果显示，其团队开创性地研发出可以预测人类寿命的仪器。他一直在追逐医疗AI领域的发展，从今年5月份开始，他写了一系列的博客来介绍这一领域的最新研究进展，目前更新到了第三篇，其系列博客的名字就叫《人类医学的终结 - 医学AI研究最前沿》（The End of Human Doctors – The Bleeding Edge of Medical AI Research）。今天给大家介绍第一部分，希望你可以从中领会到人工智能对医疗领域的影响。

接下来几天，我们会陆续放出同系列另外两篇。欢迎继续关注人工智能和医疗这个热点话题。

今天的话题：机器学习最终是否会代替人类医生？

我们要探讨的这篇论文，它采取的方法，绝对可以比以往任何一种方法都好。本来我想在一篇博客里讨论好几篇类似的论文，可惜每一篇论文都有很多值得人们深思的地方（这篇文章就已经占了3000字了），所以每一篇论文我将花整个篇幅去深度探讨和理解。然后我将在几周里分开讨论这些文章，于是就产生了我博客中关于医疗人工智能这个系列专题。

对于本次话题，我非常感谢 Lily Peng博士，这篇论文的作者之一，他对我提出的许多问题做出了非常充分的解答。

这里先奉上一份简单的总结：

TL:DR

google（和他们的合作者）训练了一个系统，可以检测糖尿病视网膜病变（全世界5%的失明由它引起），该系统能够像一个眼科医生一样做出诊断。
这是一个有用的临床任务，它可能不会节省很多的费用，也不会在医疗自动化以后取代医生，但是它的提出有很大的人文情怀。
他们使用了13万个视网膜图像进行训练，比公开的数据集大了1到2个数量级。
他们使用阳性案例丰富了他们的训练集，在某些程度上抵消了不平衡的数据分布带来的影响。
由于大多数深度学习模型都是针对低分辨率的图像，所以原数据被下采样处理，丢弃了90%以上的像素值，然而我们无法评测这样做是否有利。
他们雇佣了一组眼科医生来对图像进行标注，可能会花费数百万美元，这样做的目的是为了使标注更准确，避免出现误判。
第5点和第6点是造成当前所有深度学习系统错误率高的原因，而且这个问题很少被谈及。
深度学习之所以比医生更有优势，是因为它们可以在各个“操作点”上运作，相同的系统可以执行高灵敏度筛选和高特异性诊断，不需要再加额外的训练。
这是一个很棒的研究内容，人们能够很容易的理解，并且在文本和补充中有很多有用的信息。
这项研究似乎符合目前FDA对510（k）批准的要求。虽然这项技术不太可能通过，但是该系统或衍生物在未来的一两年内很可能加入到临床的实践当中去。

免责声明：本文主要针对大众化的群体，包括机器学习领域的专家、医生等。相关专家们可能会觉得，我对一些概念的理解很肤浅，可是我还是希望他们能在自己研究领域之外找到更多有趣的新想法。还有一点要强调的是，如果这篇文章里有任何说错的地方，请读者告诉我，我会及时改正。

研究现状

在讨论之前，我想提醒大家，虽然从2012年开始，深度学习就逐渐发展成一种研究者经常使用的方法，但是五年之内我们并没有在医学中使用这种方法，为了安全起见，我们的医疗人员也通常比技术的发展落后一步。大家了解到这个背景以后，就可以想象到现在取得的一些成果更是令人难以置信，而且我们应该客观地认识到，人工智能对医疗的发展只是一个开始。

在论文中提出了，医疗自动化已经实现了突破性的进展，我会在本文中简单回顾一下，也适当地增加了一些有用的知识。我会进一步介绍这个研究，在介绍之前先花几分钟时间说明几个关键性的问题：

任务——这项任务是临床任务吗？如果实现自动化，在医疗实践过程中会面临多大的干扰呢？为什么选择这项特定的任务呢？
数据——如何收集和处理需要的数据？数据怎么处理才能符合医学实验和监管的要求呢？我们需要深入了解医疗人工智能对大数据的要求。
结果——人工智能将战胜医生还是打成平手？他们究竟测试了什么？我们还能有什么其他的收获吗？

结论——这个结果有多大的影响力？我们还可以进一步得到其他的结论吗？

Google针对糖尿病视网膜病变的最新研究

（于2016年12月发表在美国医学会杂志）

任务：

糖尿病视网膜病是造成失明的一个重要病变，其成因是由于眼睛后部的细小血管损伤的造成的。医生可以通过观察眼睛后部的血管进行诊断，这其实是一项感知任务。

图一例如，DL系统能够学会如何识别“棉花状斑点”一样的白斑图案

他们训练了一个深度学习系统，可以完成和评估与糖尿病视网膜病变相关的几项工作，主要的成果是对一组糖尿病视网膜病变的病例进行评估，这些患者有着中度或者更严重的眼睛疾病（这组患者的治疗方式和非对照组的患者的治疗方式不同）。他们还测试了深度学习系统对其他严重的视网膜病变的识别能力，以及黄斑是否水肿的能力。

数据：

他们使用13万张视网膜图片对设计的深度学习系统进行训练，每个级别由3到7名眼科医生来投票确定，最终的结果以多数票来决定。图像是从四个地方的医院（美国EyePACS和3家印度医院）采集的可追溯的临床数据，由不同的相机拍摄出来的。

他们在两个数据集上验证了这个系统（在医学中，术语“验证”是指不参与到系统开发、训练环节的患者，与机器学习中的测试集是一个意思）。其中的一个数据集是对EyePACS数据集随机采样得到的，另一个数据集来自3家法国医院（Messidor-2）的公开数据集。第二个数据集中的所有图片是由同一个相机拍摄的。这些测试集由7-8个眼科专家进行分级，同样采用多数表决机制。

用来开发、训练的数据集中，视网膜病变的患病率占比55%，恶化率占比8%，验证数据中患者的患病率远远低于一般患者的患病率，在19.5%的患病率中，只有1.7%的严重或恶化。这样的数据集是研究者刻意设计的，训练集中有很多阳性病例（他们增加了病例，比通常发生在临床人群中更多）。

对于数据集的质量，视网膜图片的分辨率通常在1.3到350万像素之间。这些像素被缩小到299*299的分辨率，也就是0.08百万像素（整整少了94％到98％的像素！）。这是他们设计的网络结构的特性，其他大小分辨率的图像不能使用。

神经网络：

他们使用了 Google Inception-v3 深度神经网络的预训练版本，这也是到目前为止使用效果最好的图像处理系统之一。预训练意味着这个网络已经拿来训练过一些非医疗的物体（例如猫和汽车的照片），然后再在这个基础上对特定的医疗图片进行训练。这也是网络只接受229*229分辨率图片输入的原因。

结果：

我认为这篇论文是深度学习在医学人工智能领域取得的第一大突破。机器与眼科医生拥有几乎相同的疾病判断能力，甚至可以与“中级”眼科医生进行较量，表现也相当不错。

图二这是所谓的ROC曲线，是判断疾病诊断系统的最佳方式之一。通过计算曲线AUC下方的面积，能够将灵敏度和特异度结合在单一的指标中。99.1％是非常好的。

彩色点是专业眼科医生的诊断结果，黑线是所训练的深度学习系统的诊断结果。正如你所看到的，如果我们将所有的彩色点连接起来，就可以得到眼科医生诊断结果的ROC曲线*，与深度学习系统的ROC曲线相似。如果你不了解ROC曲线，你可以相信我，这绝对是一个证明两种诊断结果相同的有效方式（食品药品监督管理局将同意我的看法）。

他们的系统可以很准确的检测出黄斑水肿，但在一些严重的视网膜病变方面，它的绝对值（AUC值）数据有些差距，但与眼科医生的正面比较没有说明这些。

讨论：

关于这项研究，这里有一些有趣的事情要讨论一下。

费用：他们雇用了一组眼科医生来标注他们的数据，一共有50万个标签需要去标注。如果按照正常的看病价格去支付医生，大概需要数百万美元。这笔费用比大多数创业公司的成本还要多，而且他们肯定无法接受只有一个单一数据集的标注任务。从统计的角度考虑，数据就是力量。对于医疗人工智能来说，只有金钱才能产生这么多数据。换句话说，金钱就是力量。

任务：他们能够从眼睛的照片中检测到两类以上的“可视眼病”（中度或者重度视网膜病变），甚至更严重的视网膜病变和黄斑水肿。这些都是临床上非常重要的任务。最重要的是，这些任务涵盖了大多数医生在看糖尿病患者眼睛时在做的工作。当然，这个系统检测不出罕见的视网膜黑色素瘤，但是对于日常的眼睛检查，这是一个可以很好模拟医生的系统。

数据：数据是很有趣的方面，原因有两个：质量和数量。

从他们进行的系列实验中，我们可以看出来他们需要的图片的数量。他们还用不同数量的训练样本对系统的性能进行了测试。

图三数据集中图像的数量（单位：千）

这幅图像给我们展示了一些非常有趣的东西，他们的训练集中图像的数量上限为6万例，这些图像至少在97％的灵敏度工作点。值得关注的是，这比已经公开的数据集大了一到两个数量级，如果你的实验能超过97%的灵敏度，毫无疑问你的数据需求也一定会增加。

这个结果也向我们传达了关于数据集大小的其他内容。当他们努力复制眼科医生的工作时，对常见眼科疾病的灵敏度能够达到90%，但是对于重度或者更严重的疾病的灵敏度只有84%。可能是因为识别重度疾病的任务比较困难。

另外，我还注意到“中度或者重度”疾病的训练数据是普通的3到4倍。绝对数据较少（约9500例vs 34000例），而且关于流行眼病的数据也较少（9％为阳性，30％为阳性）。

机器学习需要训练分布不平衡的数据，但是不平衡的数据并不容易获得。以我的经验看来，不平衡的情况比低于30/70，机器学习会很难进行下去。这样的数据不仅使训练更加困难（较少的案例=较少的学习），并且也会让实际地诊断变得更加困难（系统在预测多类问题时会有一些干扰）。

不过，我们发现研究小组也在试图解决这个问题。在筛选人群的过程中，“参考”疾病的患病率在10%以下，所以这是一个高度不平衡的任务。因此，他们采用了额外的阳性病例以扩增训练数据集，令患病率达到30%。这样，训练结果得到了提升。并且，系统对其临床普遍性约为8％验证数据表现的较好。

但是，这种扩增较少的数据类型的方法只有在有更多的阳性案例情况下才有效，这种情况并不常发生。现在已经有了一些解决不平衡数据的方法，但是仍然没有找到一个解决不平衡数据的最佳方式。

这里还有两个关于数据质量的有趣的现象。

首先是数据的下采样 。这个系统在比人类观测到的图片少98%像素点的情况下，能否观测结果和人类一样呢？我们可以肯定的说，这个系统真的可以做到。当然前提是大部分丢弃的像素必须是无用的噪声信息，否则会使深度学习系统训练的过程更加艰难。人类比计算机更善于忽视视觉噪音。

这个意义实际上更深远，因为深度学习系统已经在很多场合用来处理小型图片，但对于百万像素的大型图片**的处理，还从没有过很好的效果。实际上，高分辨率图像可能包含更多有用的信息，但是并不能适用于深度学习系统。

下采样的设想引发了一系列的问题讨论：

深度学习能对高分辨率图像有更好的训练效果吗？
低分辨率的图像是否适用于所有的医疗任务呢？
从技术的角度来看，我们是否可以在深度学习中采用高分辨率图像呢？

我不知道这些问题的答案，但是在接下来的几个星期，我们会通过阅读其他的论文来明确这些问题的答案。

关于数据的质量的第二个有趣的内容就是标注的质量问题。在机器学习中，我们需要非常准确的信息。也就是说，我们希望训练数据能够被正确的标注。比如视网膜病变的训练数据就应该是真正的视网膜病变。这些理论说起来很容易，但在实际操作中，医生们对疾病的诊断意见常常会出现分歧。所以，论文作者只是提供了数据。

你可以从这幅图中看到，对于中等或中等以上程度的疾病，有80%的概率，至少有一个医生得出了与其他人不一致的结论！所以，使用一致的标签就是为了减少可能出现的人为错误。

然而数据集中的标签错误很难避免，并且危害着模型的性能。深度学习可以学习到任何你给它的东西。反过来说，如果标注出现问题，深度学习机器很容易做出误判。

有一个达成共识的标注并不是解决这个问题的唯一方法。一些任务可能有更准确的信息，例如我们下周会看到的一篇关于皮肤病变的论文。这篇论文中的每个病变都有病理学家给出的活检证实的诊断，但是变化不大。在极端的情况下，一些任务有非常完美的标签。我自己的一个项目就在关注着一个不能被误解的标签——死亡率。

我认为标签的关键在于你能得到的和你所投入的东西成正比。如果你使用个别医生的标签，至少你能和这个医生一样优秀。如果你使用共识性的数据，你将会比其中的任何一个人更厉害。如果你完整的使用校正信息，你可能会完美地完成任务。

影响： 我对作者提出将医疗机器人作为疾病筛查工具的想法表示衷心的敬佩。他们展示了机器和眼科医生一样的运行结果（假阳性率较低，但缺少一些阳性病例），同时还显示了系统优化筛选时的结果（识别几乎所有阳性病例，但还有几个假阳性）。

这些系统和医生相比有一个主要的优势：人类医生在假设的ROC曲线上有一个单一的操作点，这是基于他们经验的灵敏度和特异性的平衡，并且很难用任何可预测到的方式去改变。相比之下，深度学习系统可以在ROC曲线的任何地方运行，不需要再加额外的训练。你可以在诊断模式和筛选模式之间进行切换，而且不需要额外的费用，这种灵活性真的太酷了！在实际的临床测试中非常有用。

考虑到监管部门，这项研究已经接近于临床使用的水平。他们验证了从真实医疗中筛选的数据集的模型，并且每个案例都有多个参与者。这项称为MRMC研究，也是FDA用于计算机辅助检测系统的一般证据标准。尽管我们并不清楚这项研究和诊断系统的关系，但是如果这个系统或者类似的系统在最近两年里取得了FDA批准，我并不惊讶。

这项任务在医疗费用方面还是很可观的。眼科并不是医学的一大部分，在成本方面，眼睛检查也并不会很昂贵。

如果这个用人工智能进行眼部病变筛检的技术能得到推广，那么它人类的影响会非常大。在许多发展中国家，糖尿病病情日益严重，但是眼科专家奇缺。鉴于图像处理在低分辨率的图片上上成功率跟高，如果能将该系统与低成本且易于使用的手持式视网膜摄像机结合起来，可以挽救数百万人的生命。

然而，即使人工智能可以代替医生对视网膜病变进行评估，这对医疗工作的影响还是很局限。并且，我认为视网膜病变筛查自动会很容易导致医生工作量增加，因为以前未确诊的患者现在也需要进一步地评估和治疗。

现在我们只讨论了对视网膜病变的评估，在我们再看几篇论文以后，我们将能够探索医疗自动化轨迹的发展意义。

接下来我会看看斯坦福大学的论文，他们声称训练的深度学习系统可以实现“对皮肤癌进行分类”。

曲线上眼科医生的结果的分布让我觉得非常惊讶，因为不同的医生可能做出非常不同的预测。其中有的医生认为有0个假阳性，而其他的医生认为有10％的假阳性。这是一个很大的错误范围。

已经使用了一些解决方案，例如首先将图像进行切片操作。但这通常会大量增加负面例子的数量，加剧了数据不平衡的问题。

作者：Luke Oakden-Rayner

原文链接：

https://lukeoakdenrayner.wordpress.com/2017/05/24/the-end-of-human-doctors-the-bleeding-edge-of-medical-ai-research-part-1/