全球女性福音！DeepHealth深度学习模型检测乳腺癌完胜5名放射科医师

2020 年 1 月 1 日 新智元

新智元报道

来源：Deephealth、Arxiv、Reddit等

编辑：向学、大明

【新智元导读】深度学习在乳腺癌检测上再获突破！DeepHealth与全球多个知名机构合作，研发出的深度模型在乳腺癌诊断水平上完胜5名全日制放射科医师。该模型也可广泛适用于中国人群，有望全面提升全球女性乳腺癌筛查准确性。戳右边链接上新智元小程序了解更多！

近日， DeepHealth与全球多个知名机构合作，研发出的用于乳腺癌检测的深度学习模型击败了5名全日制放射科医师和之前的SOTA模型。尽管这个深度学习模型主要针对西方人群进行的训练，但也可以广泛适用于中国人群。作者还提出，他们有望开发出一种能够在全球范围内提高钼靶筛查准确性和可及性的软件。但在Reddit上，很多网友却发表了不同的观点与看法。

豪华创业团队，拥有最先进的机器学习技术，重点致力于乳腺癌钼靶筛查

DeepHealth使用最先进的机器学习技术，通过更好的医学影像解读来改善患者的临床结局。他们最初的重点是钼靶筛查，现在正在开发工具帮助放射科医师更早、更准确、更有效地检测到乳腺癌。他们的目标是改进乳腺癌筛查，使之可以惠及到所有女性。

DeepHealth团队

联合创始人兼CTO——Bill Lotter： 拥有哈佛大学生物物理学博士学位，论文聚焦于深度学习算法及其在神经系统科学和医学影像中的应用，在机器学习方面拥有10年经验，涉足多个细分领域。

联合创始人兼CEO——Greg Sorensen：拥有几十年医学学术和医疗保健领导经验的神经放射学家。

联合创始人兼顾问——David Cox： MIT-IBM Watson AI Lab的主管。

他们参加了“数字钼靶DREAM挑战赛”（Digital Mammography DREAM Challenge），在这项参与人数众多的开放性数据科学竞赛中，他们团队提交的结果分数都最高；这给予了他们在这个方向上最初的信心。

该团队有多种资金来源，包括天使投资人、大型战略合作伙伴和非稀释性赠款资金。他们获得了美国国立卫生研究院（NIH）和美国国家科学基金会（NSF）的小型企业创新研究（SBIR）资助，总额为240万美元。

论文解读：高效注释的深度学习方法，完胜5名受过专业训练的放射科医师

乳腺癌仍然是全球性挑战，2018年在全球造成超过100万人死亡。为实现早期乳腺癌检测，全球卫生组织推荐行X线钼靶筛查（乳腺癌筛查的“金标准”），据估计可将乳腺癌死亡率降低20-40％。然而，显著的假阳性和假阴性率，以及高昂的解读成本，使得临床仍需要质量更高、可及性更高的筛查手段。为了解决临床实践中存在的这些局限与不足，近年来研究者们对“将深度学习应用于钼靶”产生了浓厚的兴趣。但是，获取大量带标注的数据给训练深度学习模型，以及确保训练数据集中代表人群的泛化提出了挑战。

为了在减少过度拟合的同时有效利用强标注和弱标注的数据，作者在分阶段中训练了深度学习模型。

模型训练方法

为了评估深度学习方法的性能，作者进行了一项“读片研究”（Reader Study），使用的是从与其他训练数据来源不同的一个美国州的区域性卫生系统中回顾性收集的筛查DM病历。该地点没有数据被用于模型训练或选择。5名接受过乳腺成像全日制专科训练的放射科医师参与了该研究。

在“读片研究”中，作者首先比较了放射科医生的表现与深度学习模型在“Index Cancer”钼靶影像中的独立性能。

“读片研究”结果—Index Cancer Exams

该研究提出的深度学习模型在131个“Index Cancer Exams”与154个确诊为阴性的病例中，均胜过5名放射科医师。

备注：每个数据点代表一个读片者，ROC曲线代表深度学习模型的性能。十字对应于放射科医师的平均表现，其长度表示平均敏感性和特异性的95％置信区间。

“Index Cancer Exams” ：131例来自于最初被解读为疑似癌症的钼靶影像的检查，并在筛查日期后三个月内通过对其活检组织进行病理学检查确诊为患有癌症。

“pre-Index Cancer Exams”：在131名女性中有120名在“Index Cancer Exams” 之前的12-24个月进行的先前筛查。

该研究提出的深度学习模型在癌症早期检测的任务中性能也优于5名放射科医师（该数据集包括120个“pre-Index Cancer Exams”（在“Index Exam”发现癌症之前的12-24个月临床上钼靶筛查的结果被解读为阴性）和154例确诊为阴性的检查）。

“读片研究”结果—pre-Index Cancer Exams

“pre-Index Cancer Exams”在很大程度上可以被认为是挑战性假阴性；因为据估计，乳腺癌通常在钼靶检测的3年以前就已经存在。

研究总结：在该项研究中，作者提出了一种高效注释的深度学习方法：（1）在钼靶影像分类中达到最先进的性能；（2）成功延伸至数字乳腺断层摄影（Digital Breast Tomosynthesis，DBT，“3D钼靶”）；（3）在癌症患者临床上先前的钼靶筛查结果为阴性时检测出癌症；（4）普遍适用于筛查率低的人群；（5）通过将绝对灵敏度平均提高14%，超过了5/5的全职乳腺影像专家。该项研究表明，作者有望开发出一种能够在全球范围内提高钼靶筛查准确性和可及性的软件。

网友热议：值得期待，但距离取代人类医生还有距离

过去，在辅助医疗诊断上的AI应用和模型不可谓不多，但深度学习模型对训练数据高度依赖，而医疗影像学领域的数据获取难度大、数量少、结构化程度低，再加上患者对医生的信任和隐私保护等问题，真正能为普通患者带来福音的例子仍是少数，大多数停留在学术会议的讲台上，或给投资人看的PPT中。

不过，由于本论文声称AI模型在诊断上战胜了全部5名人类放射科医生，这篇文章迅速引起网友关注，在Reddit上引发不少评论：

尽管这个深度学习模型主要针对西方人群进行训练，但也可以广泛适用于中国人群。

很高兴看到这个研究可以重视并解决人群差异。

我不知道为什么这篇文章使用这5个放射科医生的平均敏感性/特异性与AI模型进行比较，而不用ROC凸包曲线（ROC convex hull）。从目前的情况来看，现在的方法使比较结果更偏向于模型，而用于比较的5人里似乎包括了两个水平很明显较烂的放射线医生。

所以我怀疑该模型实际上并没有达到文中声称“胜过人类医生”的水平。不能为了突出AI就故意找两个蹩脚医生来作对比吧。

这不是偏见，仅仅是反映了一个事实，即找一群放射科医生的预期诊断结果要比大多数精心选择的医生的诊断预期结果差。如果低敏感性的放射科医生没能诊断出癌症，这本身也是很重要的。故意忽略这些“蹩脚医生”诊断结果的潜在危害明显会更大。

的确，这只是一条相关信息，采用凸包曲线确实可以更好地衡量人类医生的最佳诊断表现，但是即使仅仅浏览论文大意也应该不难看出，文中确实将AI诊断结果与人类放射科医师进行了比较，这种比较是在多项“综合表现”上的，AI模型在每个数据上都更出色。

这与谁诊断的最准无关。即使所有放射线医师都水平相近，都追求很高的诊断灵敏度，只要不同的医生之间存在差异，这些结果的平均值就会落在凸包曲线内。

在另一个技术类资讯聚合网站Hecker News上，一位自称是放射科医生的网友认为这篇文章有点吹的太过，并对现在这类AI模型的趋势表示了担忧：