选自Stanford ML Group
作者:Awni Y. Hannun等
机器之心编译
机器之心编辑部
近日,吴恩达团队开发了一种深度神经网络,可以基于单导程心电图(ECG)信号诊断心率不齐,且诊断性能堪比心脏病医生。
ECG 是医疗实践中的基础工具,全世界每年有超过 3 亿张心电图,它在诊断心律不齐过程中起关键作用。近日,吴恩达团队在 Nature Medicine 上发表了一项研究,开发了一种深度神经网络,可基于单导程 ECG 信号分类 10 种心率不齐以及窦性心律和噪音,性能堪比心脏病医生。
你能从上图中分辨出心律不齐吗?神经网络可以准确地检测出这属于 AVB_TYPE2 类型。
该团队开发了一个 1D 卷积深度神经网络,可基于任意长度 ECG 时序数据检测心律不齐。该网络使用原始 ECG 数据作为输入(以 200 Hz 进行采样,即每秒 200 个样本),并每 256 个样本(每 1.28 s)输出一个预测结果。该网络只需要原始 ECG 样本作为输入,无需病人或 ECG 相关的其他特征。该网络架构共有 34 个层,为简化网络优化,研究人员使用类似残差网络架构的捷径连接(shortcut connection)。
与近期其他 DNN 方法不同,ECG 数据无需经过大量预处理(如傅立叶变换或小波变换),就可以获得强大的 DNN 分类性能。
该团队构建了一个大型 ECG 数据集,该数据集经过专家标注,包含大量 ECG 心律类型。
他们的数据集包含了来自 53877 名成人患者的可回溯、去识别数据,这些患者大于 18 岁,使用的是 iRhythm Technologies 公司的 Zio 监护仪,这是一种美国食品和药物管理局(FDA)批准的单导程、基于块的动态心电图监护仪,在 200Hz 下持续记录来自单个载体(改良的 Lead II)的数据。
心电图记录是根据 iRhythm Technologies 公司临床工作流程产生的报告摘要提取的,其中包括由正规心电图技术人员对算法的初始注释进行的全面审查,这种算法得到了 FDA 510(k) 的批准,可以用于临床。研究人员随机采样心率不尽相同的患者,并从这些患者中抽取了 30 秒可进行心率分类的记录。尽管目标心率类别通常出现在记录中,但大多数记录包含多种心率。为了进一步改善训练数据集中类的平衡,该团队故意对 AVB 等罕见的心率进行了过度采样。
在独立测试数据集上对比 DNN 和心脏病学家的诊断能力
测试数据集由 328 个 ECG 记录构成,收集自 328 个独特的病人,这些记录由一个由心脏病专家组成的共识委员会进行注释。
除了一个心脏病共识委员会的注释,测试数据集中的每个 ECG 记录还包括六个单独的心脏科医生的注释,这些医生不属于该委员会。利用这些委员会标签作为黄金标准,研究人员比较了 DNN 算法 F1 得分与平均每个心脏病医生的 F1 得分,F1 得分是阳性预测值(PPV,查准率)和灵敏度(查全率)的调和平均值。心脏科医生 F1 得分是 6 个单独的心脏科医生 F1 得分的平均值。
结果,DNN 的 F1 平均得分超过了心脏科医生。DNN F1 得分的趋势与心脏科医生平均 F1 得分的趋势一致:二者在类似类别上的 F1 分数都比较低,如室性心动过速和房性异位节律(EAR)。
将特异度固定在心脏科医生达到的平均特异度水平,DNN 的灵敏度超过心脏科医生在所有心律分类中的平均灵敏度。
研究人员发现该模型在所有心律类型分类中的表现足以比肩、甚至超过心脏病医生的平均表现。
研究人员绘制了序列级心律分析的 ROC曲线和 PR 曲线,下图以心房颤动为例。单个心脏病医生的表现和心脏病医生的平均表现也显示在下图中。
研究人员发现 DNN 似乎可以概括单个心脏病医生的错误分类。
对错误分类部分进行人工审核后发现,DNN 的错误分类整体上非常合理。在很多情况下,缺乏语境、信号长度有限、单导程等原因导致无法从数据中得出合理结论,这使得研究人员很难确定委员会和算法谁是正确的。类似的因素和人类错误可能解释 72.8% 的标注者之间的分歧。
下面两个混淆矩阵展示了类似的模式,图中将分类时更容易出问题的心律类型突出显示(即 SVT 和 atrial fibrillation、 junctional 和 sinus rhythm、EAR 和 sinus rhythm)。
研究人员在来自不同患者群体的外部数据集上验证了其 DNN,发现该模型的表现颇具竞争力。
为了证明 DNN 架构能够泛化至外部数据,研究人员将 DNN 模型应用于 2017 PhysioNet 挑战赛数据,该数据包含 4 种心律:窦性心律、心房颤动、噪声和其它。保持 DNN 架构不变,也不调整任何超参数,研究人员在开源训练数据集(n = 8,528)上训练其 DNN 模型,保留了 10 % 的开发数据集,以便提前停止。DNN 在隐藏测试数据集(n = 3,658)上的表现显示 F1 总分属于竞赛中表现最好的分数之一,每类心律平均 F1 分数为 0.83。
论文:Cardiologist-level arrhythmia detection and classification in ambulatory electrocardiograms using a deep neural network
论文链接:https://www.nature.com/articles/s41591-018-0268-3
摘要:计算机心电图(ECG)解释在临床 ECG 工作流程中起着至关重要的作用。广泛可用的数字 ECG 数据和深度学习算法范例为大幅提升自动 ECG 分析的准确性和可扩展性提供了机会。然而,目前还没有在各种诊断类别上对用于 ECG 分析的端到端深度学习方法进行全面评估。在本文中,研究人员开发了一种深度神经网络(DNN),用来自 53549 名使用单导程动态心电图监测设备患者的 91232 个单导程心电图对 12 种心律进行分类。当对照共识委员会(由董事会认证的执业心脏病专家组成)注释的独立测试数据集进行验证时,DNN 在受试者工作特征曲线(ROC 曲线)下的平均面积为 0.97。其平均 F1 分数(即阳性预测值和敏感度的调和平均值)为 0.837,超过了平均心脏病专家(0.780)。由于特异度固定在心脏病专家达到的平均特异度上,DNN 的敏感度超过了心脏病专家对所有心律等级的的平均敏感度。这些发现表明,端到端深度学习方法可以将各种不同的心律失常从单导程心电图中区分开来,具有类似于心脏病专家的高诊断性能。如果在临床环境中得到实证,该方法将可以通过准确地筛选或优先考虑最紧急的情况,降低计算机 ECG 解释的误诊率,并提高人类专家 ECG 解释的效率。
原文链接:https://stanfordmlgroup.github.io/projects/ecg2/
本文为机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com