谈论准确率意义不大,糖网 AI 好不好到底谁说了算?

2017 年 11 月 22 日 AI掘金志 刘伟


AI掘金志出品

雷锋网旗下只报道“AI+传统”的内容频道


在所有导致失明的疾病中,糖尿病性视网膜病变(Diabetic Retinopathy,下称糖网病)是增长最快的,人工智能有望扭转这一局面。


国际糖尿病联盟的统计结果显示,截至2015年,我国糖尿病患者约1.1亿人。另根据国家卫生计生委办公厅2017年3月发布的数据,目前我国糖网病在糖尿病罹患人群中的患病率为24.7%~37.5%。按此推算,我国的糖网病患者已超过2700万人。


这些患者平时在内分泌科进行控糖管理,内分泌科的医生不具备阅片能力,而眼科医生数量又严重不足(2012年仅有3.14万名眼科医生),无暇顾及糖网筛查。


近两年高速发展的人工智能技术有望打破这一僵局。由于借助眼底图像就能较好地确诊,而且眼底图像获取条件相对宽松,糖网筛查成了人工智能落地医疗领域的绝佳土壤。目前国内尝试用人工智能进行糖网筛查的企业不在少数,而且看起来效果不错,准确率都达到了90%多。


不过正如北京致远慧图科技有限公司创始人孙宇辉所言,“AI+眼底糖网筛查领域现在缺乏一个行业标准,单纯从数字上来看,似乎大家都很好。这是这因为各家都有自己的数据库,各自的算法都是按照自己的数据进行训练的,然后以自己的数据来验证准确性,或者和大的三甲医院合作进行临床测试。”换言之,企业既是选手又是裁判。


这样测试出来的准确率可靠性有多高?AI筛查糖网的准确率到底该由谁来界定?医院是否认可这样的产品?企业又该如何说服医院?带着这些疑问,雷锋网AI掘金志采访了数家从事糖网筛查的AI领军企业、高校教授,以及眼科专家。


谈论准确率到底有没有意义?


“准确率不是衡量算法是否优秀的唯一指标。”肽积木CEO柏文洁认为,在正负样本不平均的前提下,用准确率衡量算法有很大的缺陷,甚至不具备参考意义。


她以互联网广告为例,“广告的点击数量是很少的,假设在千分之几这个量级,如果用acc(准确率)来衡量,即使最终全部预测成负类,也就是预测都没有点击,acc 也有 99% 以上。”


柏文洁认为,衡量算法是否优秀要综合考量Precision(精确度),Sensitivity(灵敏度),F值以及AUC等多个指标。考虑到临床应用还要兼顾算法的计算速度,鲁棒性等多方面性能指标。再细化到具体应用场景,还要根据是到基层现场筛查还是到医院散瞳进行精细诊断,决定算法该更关注召回率还是精确度等等。


“脱离具体场景只谈准确度是不科学的,也是不现实的”,柏文洁说道。


北京大恒普信医疗技术有限公司(以下简称“大恒普信”),作为深耕眼科疾病市场十余年的老牌玩家,在AI浪潮兴起之后也积极依托其深厚的数据积淀,开始了对新技术的探索和尝试。


据大恒普信总经理赵雷介绍,在智能诊断算法的临床测试过程中,大恒普信评估的不仅仅是准确率,还包括正预测值、召回率等等多个指标。赵雷认为,只有将这些指标综合起来,才能评估一种算法的优劣和好坏。


他说道:“评估一种方法或算法的准确性有很多科学标准,仅仅依靠上述几个指标恐怕还不够。生成算法所使用的数据库、采用的方法,再加上上述几个指标,综合起来也许才能真正反映该算法的实际应用效果,三者缺一不可。”


上工医信CEO季鑫也表示,基于标准或特定数据集的实验室结果,在没有得到真正临床验证前,企业对外宣传的敏感性或特异性,没有多大的意义。因为在实际临床应用场景中,要面临非常复杂的情况。


苏州大学特聘教授、医学影像处理与分析实验室主任、973(青年)项目首席科学家陈新建教授,站在一名学者的角度,发表了自己的见解。


他认为,现阶段医疗AI不能独立于人单独做诊断。AI企业测试的准确率与实际临床之间存在一定的差距。这个差距需要通过长时间积累更大样本的临床数据,和不断完善算法来一步步弥补。


不过我们也不能就此抹杀医疗AI的价值。陈教授表示:“医疗AI的意义依然十分重大。现阶段AI的主要作用是辅助医生进行诊断,帮助医生提高效率,降低误诊率,能够实现不错的效果。”


陈教授还指出,糖网筛查现阶段最大的瓶颈在于影像质量难以保障。由于技术原理问题,瞳孔较小、晶状体浑浊等人群的免散瞳眼底彩照,图像质量往往达不到筛查的要求。而且出于成本考量,目前基层使用的大多是手持眼底相机,成像质量堪忧。


“除了AI算法的准确率,图像采集设备的性能和可操作性也有待提升。采用三维OCT采集设备是一种解决方案。”陈教授说道。


Airdoc副总裁张京雷认为,与其纠结算法的准确率是多少,不如打造一款综合性的产品,覆盖尽可能多种类的眼底疾病。


因为眼底病变可能对应的眼部疾病多达几十种,即使排除了糖网病,病人也可能患有其他眼部疾病。AI和人类医生的不同之处在于,一位眼科医生能够同时识别多种眼部疾病,即使有些疾病无法确诊,至少他知道是不正常的,并能带着疑问查找资料或请教其他医生,最终解决问题。而对于AI来说,理论上一种算法只能识别一种疾病,因为每一种疾病的特征都是不一样的。


“只能识别单一疾病的软件产品临床意义并不大。就拿糖网筛查来说,就算确认病人没有得糖网病,那他有没有可能患了其他眼底疾病呢?医生还是要把所有眼部片子都看一遍,效率提升并不大。Airdoc做的并不仅仅是糖网筛查,而是多病种的院外慢病筛查和管理,糖网只是其中的技术手段之一。目前,Airdoc已经将多种算法融合在一起,覆盖了人类常见的十几种眼底疾病。我相信这比单一算法的准确率提升1%更有价值。”张京雷说道。


产品好不好谁说了算?


既然企业在实验室环境中测试出来的准确率缺乏足够的说服力,那么一款糖网筛查产品到底好不好究竟该由谁说了算呢?


经过多个糖网筛查真实项目的探索和总结后,大恒普信总经理赵雷对于糖网筛查的行业标准问题深有感触。他表示,目前临床糖网诊断的标准非常明确,国内有82年分期法,国际有国际糖网分期法。虽然这两个标准略有不同,但总体都很清晰明了。


而市面上提供人工智能辅助诊断的产品,标准却各不相同。大家都知道人工智能很厉害,但要使算法模型更加精准,首先需要建立关键医疗数据库和有质量的病患数据库,还要对统计数据和图像处理有清醒的理解。


目前绝大多数从事糖网人工智能诊断的公司要么是创业公司,要么就是互联网公司,很难有多年的丰富医疗信息和影像资料的积淀,真正能自己构建数据库的公司更是少之又少。


他表示,数据库是否足够大,是否足够涵盖所有的病例;医生的标注是否权威详尽;所采用的方法是否先进科学,都是评估一个算法的关键因素。但最终判断算法是否有足够说服力,还是要落地到实际应用场景中去看医生的认可程度,要看辅助诊断方法究竟能在多大程度上替代医生的工作,能不能帮助医生提高诊断效率,降低工作量等。


孙宇辉则认为,行业内需要建立一个标准的数据库,这个数据库包含各种各样质量的眼底图像数据,由专家进行标注,然后用这个统一的标准数据库去验证企业做的系统,这样才更有说服力。


柏文洁表示,行业标准的制定需要从业者的共同努力。一种疾病的诊疗标准也是由业内的顶尖医生共同协商制定,并在临床的实践中不断更新修正的。肽积木正在整理和扩大自身的数据库,并与国内顶尖专家共同探讨标记标准。

她说道:“希望能尽早一步公开我们的自有数据库,也希望各位从业伙伴批评指正,共同推进人工智能糖网筛查的发展。”


Airdoc副总裁张京雷认为,产品到底好不好用最终还是需要到临床中来验证。而通往临床又有一条必经之路,那就是CFDA认证。


他说道:“AI是基于医生提供和标注的数据训练出来的。在疾病诊断方面,医生也做不到100%准确,因此要求AI算法做到100%准确是不现实的。而且实验室环境下的准确率和真实场景中的也存在一定差异。”


张京雷认为,企业的AI算法在实验室环境中达到一定的准确率之后即可申报CFDA认证。CFDA有一套自己的评判标准,会根据企业提交的各种材料判断其是否具备了临床应用的资格。有了准入资格之后,企业的AI产品即可在真实的临床场景中接触各种各样的眼底图像,并与医生的诊断结果进行对照,不断提高其准确率。


糖网AI目前成熟度如何?


诚如张京雷所言,CFDA认证是医疗AI企业必须面对的一道硬性门槛。


今年9月4日,CFDA刚刚发布了最新版的《医疗器械分类目录》。《目录》规定,若诊断软件通过算法,提供诊断建议,仅有辅助诊断功能,不直接给出诊断结论,则申报二类医疗器械,如果对病变部位进行自动识别,并提供明确诊断提示,则按照第三类医疗器械管理。《目录》指出,第三类医疗器械必须做临床试验,第二类器械则有临床试验豁免目录。


目前,不少糖网AI企业都卡在了CFDA认证环节。在这方面,上工医信可以说是走在了行业前列。上工医信从2014年7月就开始了行业布局,如今已顺利通过了二类医疗器械认证。


上工医信CEO季鑫表示,“上工目前算法的敏感性非常高,如果病人已经出现了病征,通过系统和人工的双重检测,可以实现绝对不会漏掉一个有病的病人 。对于一些质量很差,甚至根本看不清的眼底图像,系统会自动转到质控环节,由三甲医院专家组成的专家小组对其进行评判。”


柏文洁也结合肽积木自身的发展,介绍了目前糖网AI的发展程度。她说道:“我们在特定数据集的准确度达到94.3%,精确度达到98.1%,灵敏度达到92%,AUC达到0.9997。通过一张眼底照片,肽积木可以给出糖网诊断分级,划分视盘黄斑血管等解剖结构,标记出血渗出等病灶区域,自动编写病例完善病情描述,并给出最终的治疗方案建议。整个过程耗时仅需1秒。”


赵雷表示,在现有的技术条件和法律法规下,人工智能软件是对医疗资源的补充,是对医务人员的辅助。


目前大恒普信的人工智能诊断软件在实际应用中,也主要是起到减少医生工作量的作用。大恒普信的智能筛查系统,会对筛查上来的病人数据进行智能分析,并将有问题和无问题的患者进行分组,让医生对没问题的病人采用快速浏览的处理方式,减少医务人员的工作量。而对于有问题的病人,系统会在分期的基础上对病变位置进行标注,降低我们医务人员的阅片强度和难度。


如何说服医院使用?


除了已经拿到二类证的上工医信,Airdoc等几家企业预计也将很快陆续迈过CFDA这道门槛。未来几家企业在接受临床检验的同时也将展开正面竞争。值得所有企业深思的是,目前大多数医务工作者仍对医疗AI持保守态度,那么该如何说服他们使用自己的产品呢?


肽积木CEO柏文洁表示,目前肽积木已经联合了二十余家基层医院开展眼底筛查工作。在人工智能出现之前,基层医院由于人力资源及效率的问题,没有办法开展眼底筛查工作。正是由于肽积木的糖网筛查平台,更多的基层医院能完成筛查,更多的患者能够获得更早了解病情控制病情的机会。


她说道:“针对于保守一些的医院,我们仍然秉承着开放的态度,乐于同医院分享我们最新的科研进展及行业动态。现在从政策趋势来看,国家食品药品监督管理总局组织修订了《医疗器械分类目录》,新增决策软件类目。科技部也召开《新一代人工智能发展规划》项目启动会,整体都是利好消息。随着相关政策的完善,肽积木也会早日完成相关类目的申请审批,让更多的医院能够放心地使用我们的产品。”


大恒普信总经理赵雷认为,在当前医疗资源紧张、患者医疗意识提升的社会大环境下,对糖网筛查人工智能辅助诊断的需求会越来越强烈。因此并不是企业“教育”医生使用AI系统,而是医院和医生迫切的需求驱动企业不断改进和完善系统,以更好地为他们服务。


他表示,现在各大公司的关注重点可能有所偏颇。糖网筛查应该重在筛查和后续管理,这不是临床医院而是各级CDC等公共卫生部门的工作。只有各级公共卫生部门承担起防盲、防低视力等工作后,糖网筛查AI才有可能大规模应用。

“不过打铁还需自身硬,一款好的产品是关键”,赵雷说道。


Airdoc副总裁张京雷对于商业推广问题,也有着非常清晰的认识。他表示,医疗AI的推广必然会面临阻力,任何新技术的推广都是如此。近两年随着AlphaGo连续战胜国内外围棋高手,大多数医生对AI的态度已经有所改观,但这并不意味着医生就愿意接受医疗AI产品。


张京雷认为,在漫长的职业生涯中,很多医生已经熟悉了自己劳动强度和工作流程。AI技术的引入必然会改变他们原有的工作流程,增加学习成本,这是医生所不愿意看到的。打动医生的关键在于,要让他们先接触和熟悉AI,认识到这个产品是对他们有益的。


为此,Airdoc采取了两大策略:一是在部分医院开展试点,免费为试点医院提供设备和软件,让他们先体验,其他医院在和试点医院交流的过程中也能建立起一定的认知;二是在中高级医生云集的医疗学术会议上布置展台,供医生前来体验。


“但这样覆盖到的医生数量还是极为有限。”张京雷说道:“医疗领域非常相信‘大腕’的意见,如果能让这些‘大腕’先接触并慢慢接受——至少不排斥AI,对于AI的推广应用是大有裨益的。”


但说到底,打铁还需自身硬,医疗AI能否被医生接受主要取决于两点:一、是否安全;二、能否真正给医生带来帮助。安全性的问题相对容易解决,只要产品通过了CFDA认证就能免除医生的后顾之忧。“实用”二字则不大容易实现,因为对医生来说“锦上添花”是不够的,必须“雪中送炭”。


张京雷认为糖网AI的最佳落地场景并非大医院,而是基层社区。虽然糖网AI也能帮助大医院的医生提高效率,但一方面要改变医生原有的工作流程,另一方面无法给医院带来患者“增量”。大医院没有足够的动力花费大量的资金和人力引进新技术。


基层的糖网筛查市场则相对空白。近年来国内正在大力推广基层社区的糖网筛查工作,但苦于眼科医生人手不足,即使从基层采集了大量的眼底图像,也没有人来阅片。企业通过和政府、卫生部门、医院合作,免费为基层社区提供糖网筛查服务从而切入市场,既解决了政府和卫生部门的燃眉之急,又能给医院精准导流,带来病人“增量”。无论站在任何一方的角度来说,都是乐见其成的。


张京雷表示,Airdoc正在把绝大多数眼底病,和可以通过眼底照片及其他无创数据采集手段获取数据并进行有效管理的慢病,都通过院外筛查的方式早期发现并导入规范治疗。


他说道:“这是我们独特的商业模式,也是Airdoc和其他公司最大的不同。”


陈新建教授除了是知名学者,也是苏州比格威医疗科技有限公司的创始人和首席科学家。站在企业家的角度,陈教授认为,眼科人工智能落地的前提是医生或者筛查终端要对AI有足够强的需求。相比较而言基层医院比三甲医院更需要AI辅助诊断。


对于基层眼科医生来说,AI自动诊断用于OCT意义要比用于眼底彩照更大,原因在于二维眼底彩照的诊断难度较低,看一张照片也只需要几秒钟;而三维OCT的学习曲线要长的多,很多基层医院医生很难很好地掌握,读一个片子所需的时间也长得多,AI对于医生降低误诊率、提高效率的帮助更为显著。


从筛查角度来说,OCT除糖网外,还能筛查青光眼、老年黄斑变性等几乎所有眼底疾病,筛查范围比眼底彩照大的多;适用人群除糖尿病人群外,还包括高度近视眼、“三高”人群、中老年人群等,适用范围也大的多,更适合应用于基层医院或体检机构。目前苏州比格威医疗科技有限公司的AI已经在多个体检机构和基层医院得到应用,取得了很好的效果。


雷锋网总结


综合几位嘉宾的观点来看,虽然目前糖网AI还缺少统一的评估标准,但其价值是毋庸置疑的。未来AI完全能够胜任“医生助手”的角色。


随着相关政策逐渐明晰,糖网AI产品将逐渐走出实验室,接受实际临床的检验。大量临床数据的验证又将反过来进一步推动糖网AI产品的进步。


商业层面,企业对于自己的“变现之路”也有了更加成熟、深入的思考。我们完全有理由对糖网AI的未来充满信心。


长按二维码,关注雷锋网旗下「AI掘金志」


登录查看更多
1

相关内容

最新《机器学习理论初探》概述
专知会员服务
46+阅读 · 2020年5月19日
基于深度学习的多标签生成研究进展
专知会员服务
142+阅读 · 2020年4月25日
基于深度神经网络的少样本学习综述
专知会员服务
171+阅读 · 2020年4月22日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
见字如面:二十年,终于等到你
肿瘤资讯
7+阅读 · 2019年6月19日
BioMind ™:勇做神经影像AI领域的探路者
医谷
4+阅读 · 2019年4月23日
“看脸”的时代,AI到底有多智能?
微软丹棱街5号
3+阅读 · 2017年11月9日
Arxiv
110+阅读 · 2020年2月5日
Arxiv
14+阅读 · 2020年1月27日
VIP会员
Top
微信扫码咨询专知VIP会员