近日,为全面实施健康中国战略,落实《国务院办公厅关于促进“互联网+医疗健康”发展的意见》,国家医政医管局发布了《关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知》。
《通知》中提到,要发挥临床诊疗决策支持功能。鼓励医疗机构在电子病历信息化建设工作中,将临床路径、临床诊疗指南、技术规范和用药指南等嵌入信息系统,提高临床诊疗规范化水平。并且指出目标,到2020年,要达到分级评价4级以上,即医院内实现全院信息共享,并具备医疗决策支持功能。
要发展临床决策,电子病历的数字化、智能化成为了必然。其中,为实现数据的结构化可计算,可推理,命名实体识别(Named Entity Recognition, NER)等自然语言处理任务的重要性凸显。
据悉,电子病历的NER,是通过对既定电子病历纯文本文档,识别和抽取出与医学临床相关的实体提及,结合数据源“现病史记录”的内容及特点,将它们归类到预定义类别。
它不仅是文本挖掘的第一步,还是生物医学领域的重要工具,可被应用于诸多方面,如医学文献、在线医疗社区和电子医疗记录上。所以构建电子病历NER的公开数据集,能达到的效果可谓是“一箭多雕”——有助于使医疗实体结构化和标准化,并完成医疗实体关系抽取和医疗知识图谱构建等任务。
国际上,已有一批面向英文电子病历的的NER公开评测及标注数据集,包括I2b2、ShARe/ CLEF eHealth和SemEval等,但在国内,此测评尚处空白。
为了促进中文电子病历相关研究的发展,填补国内面向电子病历NER评测竞赛及标注数据集的空白,医渡云联合清华大学知识工程实验室和哈尔滨工业大学,共同组织了“面向中文电子病历的命名实体识别”项目的测评。
NER评测竞赛的初衷
据医渡云首席人工智能科学家闫峻介绍,通常情况下,医疗数据不是医院里有了就可以直接用于临床应用。临床病历设计的初衷是面向记录,而不是面向研究。
换句话讲,医生会把临床的所有的情况原原本本地记录下来,但却并没有针对信息做面向研究和应用的加工处理。
这样一来,临床电子病历大部分都是自然语言。而这种文本信息放到计算机里无法进行任何形式的计算,所以首先要做的是数据结构化。
国内信息化系统厂商繁多,不仅采用的标准,且每个医院医生的书写习惯和表达习惯也不同。一些疾病的名称,医院里甚至有上百种表达方式。所以,要从整段的自然语言文本里提出数据,如果没有技术支撑,需要巨大的人力投入。
“医渡云举办‘面向中文电子病历的命名实体识别’项目的测评,初衷也在于此。”闫峻说。
为了攻克难点,医渡云首先对数据进行了“去粗取精”:一方面,在预定义类别中直接将本次测评的关键点——医疗实体提及、起止位置识别和预定义类别等三项进行梳理,使海量数据的“站队”有条不紊;另一方面,在细节之处“精益求精”,单在预定义类别中就设置了五个方面:独立症状、症状描述、解剖部位、药物和手术。具体数据信息如下:
为了保障测评专业性和权威性,医渡云在项目的测评的数据整理和标注环节,还组织专业的医生团队做后盾。且为了确保数据安全,向报名参赛的118个队伍明确指出,数据仅限CCKS 2018 竞赛评测。
为何这样一项评测在我国要到今天才能展开?对于这一问题,医渡云人工智能实验室自然语言处理专家焦增涛也给出了解释:“这与其中的技术难点不无关系。其难点一般有两处:一是由于症状类型实体大多表现为结构化形式;二是一些医学术语特有的表达方式,使电脑在识别并读取中经常“卡壳”,这给医学术语的整理和分门别类,产生了难度。”
因此,如果能够克服上述难点,解决当前中文电子病历NER可供使用的公开资源匮乏问题,其价值就能得到更大程度的体现。虽然这次评测任务由于医疗数据的敏感性所有数据都是专业医生团队模拟撰写,但无论从感观数据仿真度还是统计学意义数据分布情况均经过严格科学测试。
如何形成行业认可的标准?
NER评测的背后,反映出医疗数据标准化的重要性。除了命名问题,数据的质控也同等重要。
在对医院文本进行结构化处理的过程中,医渡云发现医疗数据的质量其实并不高。虽然医渡云合作的医院都是国内排名前150名的三甲医院,但它们的数据依然有很多质量不达标、不准确的地方。
为了解决这些问题,医渡云用三年半的时间专注开发出一个整合性极强的“医学数据智能平台”(DPAP),能把原始零散的不可计算数据变成高质量可计算可应用数据,平台上聚集了大量知识图谱、300种以上的智能处理模块以及二十余种专病库。
DPAP通过对散落的数据整合,构建患者的时间轴模块,以诊疗事件时间为主线,完成疾病数据建模;从疾病的角度来看,DPAP还能够提供疾病数据模型。而无论是疾病数据模型,还是患者诊疗模型,这都是临床科研、路径挖掘、疗效评价、辅助诊断应用的基础。
在此过程中,医渡云还对整个数据的生产进行强力的质控,通过建立医学常识的知识库和归一化处理,将医院内不同的说法,映射到同一个标准。
但问题在于,标准如何制定?
现阶段,在医疗行业,包括政府、学术、民间和企业在内的各种组织,都在尝试定义各种标准。但难题在于,标准制定出来之后,如何让行业遵从它。
闫峻表示:“医渡云不愿意去等待标准的产生,所以我们与很多的专家、医院去尝试制定数据标准。另外,我们觉得更行之有效的方式是,先不通过市场去推广标准,而是与上百家三甲医院合作,按照每家医院自己的习惯,帮助其数据质量提升。”
这意味着,不管是哪一家医院,用什么样的标准,都会跟医渡云自己的标准形成映射。只要映射关系存在,医渡云就可以实现临床多中心的研究,只需在医院授权前提下开放一个接口,所有合作的医院都可以在一个平台上协同合作。
只有把数据服务做好,才有机会在潜移默化中形成大家认可的标准。
标准的好坏的界定,闫峻认为可以从两个途径来看:一能否真正能带来实际价值的落地,二是是否有人愿意追随。医渡云希望能够把自己在科研领域的专业化产品,不仅为临床科室赋能,还要推动医院信息科与临床之间产生共识和共鸣。
此外,从人才结构来看,如果真的想要形成标准,闫峻认为一定要包含医学专家和计算机专家。
以知识图谱为例,专家的知识和经验,便是知识图谱的基础,而数据得出的规律,就是机器学习的范畴,所以两大学派的融合,不仅是大数据和人工智能企业追求的人才结构组合,也是最终形成行业标准的必然融合。
专病数据价值多多
标准化的结果,是帮助医院产生高质量的专病数据,这也是医渡云这样的大数据公司的重要价值体现。在很多的医院的专病库建设的过程中,医渡云并不是医院提供了数据,就单只作为数据的加工处理方完成交付。
工作中,会经历很多专病库的生产,经历多次迭代。医渡云先要根据医生对数据的解释进行加工生产,回过头来,还要把产出的数据与医生进行对接和修正。高质量专病数据的生产需要经历非常多道工序。“医生对数据有了更深刻的认知,企业也从这个过程中学到很多医学知识,这是一个共同进步的过程。”闫峻说。
在不少项目中,医渡云还要更多做一步。例如某专病库,在医学学术界有着大量的论文文献。医渡云除了评价数据质量、结构化的程度的高低,还要看这份数据能否重现之前的一些科研论文,达到其表述的效果。通过这样的方式,医渡云来验证其交付水准。
医渡云的核心:“医疗大脑”
“这些年,医渡云的核心是‘医疗大脑’的建设,一方面是人工智能技术,另一方面是医疗知识图谱的建设。人工智能离不开真实世界数据和最新的医学论文的研究成果的支持,它们结合形成的知识点,是构建医疗大脑的关键。”医渡云CTO徐济铭告诉记者。
据了解,目前医渡云已与700余家医疗机构建立战略合作,其中包括全国top150 中的100家顶级医疗机构,为医院集成融合3亿多患者、13亿人次的医学数据。另外,医渡云还建立了近30个高质量专病库,且每年仍在不断增加中。
在全国,医渡云已与医疗机构产出近20篇国内/国际期刊论文。通过强大的技术处理数据,医渡云为合作机构提供理论依据,通过建立标准、整合数据、培养医学大脑、提供科研灵感来辅助临床诊疗决策、提高效能。
文|郝雪阳
微信|hxy942416176
添加时请注明:姓名-公司-职位
后台发送关键词即可获得相关好文
网站、公众号等转载请联系授权
近期推荐
“医药数字化转型”专题
★ 阿斯利康 ★ Oscar health
★ Verge Genomics ★ Veeva
“心理健康+案例”专题