中文电子病历数据挖掘标准化时代，医渡云如何抢坐头把交椅？

2018 年 10 月 8 日 动脉网

近日，为全面实施健康中国战略，落实《国务院办公厅关于促进“互联网+医疗健康”发展的意见》，国家医政医管局发布了《关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知》。

《通知》中提到，要发挥临床诊疗决策支持功能。鼓励医疗机构在电子病历信息化建设工作中，将临床路径、临床诊疗指南、技术规范和用药指南等嵌入信息系统，提高临床诊疗规范化水平。并且指出目标，到2020年，要达到分级评价4级以上，即医院内实现全院信息共享，并具备医疗决策支持功能。

要发展临床决策，电子病历的数字化、智能化成为了必然。其中，为实现数据的结构化可计算，可推理，命名实体识别（Named Entity Recognition, NER）等自然语言处理任务的重要性凸显。

据悉，电子病历的NER，是通过对既定电子病历纯文本文档，识别和抽取出与医学临床相关的实体提及，结合数据源“现病史记录”的内容及特点，将它们归类到预定义类别。

它不仅是文本挖掘的第一步，还是生物医学领域的重要工具，可被应用于诸多方面，如医学文献、在线医疗社区和电子医疗记录上。所以构建电子病历NER的公开数据集，能达到的效果可谓是“一箭多雕”——有助于使医疗实体结构化和标准化，并完成医疗实体关系抽取和医疗知识图谱构建等任务。

国际上，已有一批面向英文电子病历的的NER公开评测及标注数据集，包括I2b2、ShARe/ CLEF eHealth和SemEval等，但在国内，此测评尚处空白。

为了促进中文电子病历相关研究的发展，填补国内面向电子病历NER评测竞赛及标注数据集的空白，医渡云联合清华大学知识工程实验室和哈尔滨工业大学，共同组织了“面向中文电子病历的命名实体识别”项目的测评。

NER评测竞赛的初衷

据医渡云首席人工智能科学家闫峻介绍，通常情况下，医疗数据不是医院里有了就可以直接用于临床应用。临床病历设计的初衷是面向记录，而不是面向研究。

换句话讲，医生会把临床的所有的情况原原本本地记录下来，但却并没有针对信息做面向研究和应用的加工处理。

这样一来，临床电子病历大部分都是自然语言。而这种文本信息放到计算机里无法进行任何形式的计算，所以首先要做的是数据结构化。

国内信息化系统厂商繁多，不仅采用的标准，且每个医院医生的书写习惯和表达习惯也不同。一些疾病的名称，医院里甚至有上百种表达方式。所以，要从整段的自然语言文本里提出数据，如果没有技术支撑，需要巨大的人力投入。

“医渡云举办‘面向中文电子病历的命名实体识别’项目的测评，初衷也在于此。”闫峻说。

为了攻克难点，医渡云首先对数据进行了“去粗取精”：一方面，在预定义类别中直接将本次测评的关键点——医疗实体提及、起止位置识别和预定义类别等三项进行梳理，使海量数据的“站队”有条不紊；另一方面，在细节之处“精益求精”，单在预定义类别中就设置了五个方面：独立症状、症状描述、解剖部位、药物和手术。具体数据信息如下：

为了保障测评专业性和权威性，医渡云在项目的测评的数据整理和标注环节，还组织专业的医生团队做后盾。且为了确保数据安全，向报名参赛的118个队伍明确指出，数据仅限CCKS 2018 竞赛评测。

为何这样一项评测在我国要到今天才能展开？对于这一问题，医渡云人工智能实验室自然语言处理专家焦增涛也给出了解释：“这与其中的技术难点不无关系。其难点一般有两处：一是由于症状类型实体大多表现为结构化形式；二是一些医学术语特有的表达方式，使电脑在识别并读取中经常“卡壳”，这给医学术语的整理和分门别类，产生了难度。”

因此，如果能够克服上述难点，解决当前中文电子病历NER可供使用的公开资源匮乏问题，其价值就能得到更大程度的体现。虽然这次评测任务由于医疗数据的敏感性所有数据都是专业医生团队模拟撰写，但无论从感观数据仿真度还是统计学意义数据分布情况均经过严格科学测试。

如何形成行业认可的标准？

NER评测的背后，反映出医疗数据标准化的重要性。除了命名问题，数据的质控也同等重要。

在对医院文本进行结构化处理的过程中，医渡云发现医疗数据的质量其实并不高。虽然医渡云合作的医院都是国内排名前150名的三甲医院，但它们的数据依然有很多质量不达标、不准确的地方。

为了解决这些问题，医渡云用三年半的时间专注开发出一个整合性极强的“医学数据智能平台”（DPAP），能把原始零散的不可计算数据变成高质量可计算可应用数据，平台上聚集了大量知识图谱、300种以上的智能处理模块以及二十余种专病库。

DPAP通过对散落的数据整合，构建患者的时间轴模块，以诊疗事件时间为主线，完成疾病数据建模；从疾病的角度来看，DPAP还能够提供疾病数据模型。而无论是疾病数据模型，还是患者诊疗模型，这都是临床科研、路径挖掘、疗效评价、辅助诊断应用的基础。

在此过程中，医渡云还对整个数据的生产进行强力的质控，通过建立医学常识的知识库和归一化处理，将医院内不同的说法，映射到同一个标准。

但问题在于，标准如何制定？

现阶段，在医疗行业，包括政府、学术、民间和企业在内的各种组织，都在尝试定义各种标准。但难题在于，标准制定出来之后，如何让行业遵从它。

闫峻表示：“医渡云不愿意去等待标准的产生，所以我们与很多的专家、医院去尝试制定数据标准。另外，我们觉得更行之有效的方式是，先不通过市场去推广标准，而是与上百家三甲医院合作，按照每家医院自己的习惯，帮助其数据质量提升。”

这意味着，不管是哪一家医院，用什么样的标准，都会跟医渡云自己的标准形成映射。只要映射关系存在，医渡云就可以实现临床多中心的研究，只需在医院授权前提下开放一个接口，所有合作的医院都可以在一个平台上协同合作。

只有把数据服务做好，才有机会在潜移默化中形成大家认可的标准。

标准的好坏的界定，闫峻认为可以从两个途径来看：一能否真正能带来实际价值的落地，二是是否有人愿意追随。医渡云希望能够把自己在科研领域的专业化产品，不仅为临床科室赋能，还要推动医院信息科与临床之间产生共识和共鸣。

此外，从人才结构来看，如果真的想要形成标准，闫峻认为一定要包含医学专家和计算机专家。

以知识图谱为例，专家的知识和经验，便是知识图谱的基础，而数据得出的规律，就是机器学习的范畴，所以两大学派的融合，不仅是大数据和人工智能企业追求的人才结构组合，也是最终形成行业标准的必然融合。

专病数据价值多多

标准化的结果，是帮助医院产生高质量的专病数据，这也是医渡云这样的大数据公司的重要价值体现。在很多的医院的专病库建设的过程中，医渡云并不是医院提供了数据，就单只作为数据的加工处理方完成交付。

工作中，会经历很多专病库的生产，经历多次迭代。医渡云先要根据医生对数据的解释进行加工生产，回过头来，还要把产出的数据与医生进行对接和修正。高质量专病数据的生产需要经历非常多道工序。“医生对数据有了更深刻的认知，企业也从这个过程中学到很多医学知识，这是一个共同进步的过程。”闫峻说。

在不少项目中，医渡云还要更多做一步。例如某专病库，在医学学术界有着大量的论文文献。医渡云除了评价数据质量、结构化的程度的高低，还要看这份数据能否重现之前的一些科研论文，达到其表述的效果。通过这样的方式，医渡云来验证其交付水准。

医渡云的核心：“医疗大脑”

“这些年，医渡云的核心是‘医疗大脑’的建设，一方面是人工智能技术，另一方面是医疗知识图谱的建设。人工智能离不开真实世界数据和最新的医学论文的研究成果的支持，它们结合形成的知识点，是构建医疗大脑的关键。”医渡云CTO徐济铭告诉记者。

据了解，目前医渡云已与700余家医疗机构建立战略合作，其中包括全国top150 中的100家顶级医疗机构，为医院集成融合3亿多患者、13亿人次的医学数据。另外，医渡云还建立了近30个高质量专病库，且每年仍在不断增加中。

在全国，医渡云已与医疗机构产出近20篇国内/国际期刊论文。通过强大的技术处理数据，医渡云为合作机构提供理论依据，通过建立标准、整合数据、培养医学大脑、提供科研灵感来辅助临床诊疗决策、提高效能。

文|郝雪阳

微信|hxy942416176

添加时请注明：姓名-公司-职位

后台发送关键词即可获得相关好文

网站、公众号等转载请联系授权

近期推荐

★ 新医疗流量入口在何方：《医疗流量入口价值报告（上）》

★ 医疗流量的江湖：《医疗流量入口价值报告（中）》

★ 暗流涌动，流量江湖变革正当时：《医疗流量入口价值报告（下）》

★ 2018医疗人工智能报告

★ 我们调研了561家医疗大数据公司发现正从三个细分领域跑出独角兽

“医药数字化转型”专题

★ 阿斯利康 ★ Oscar health

★ Verge Genomics ★ Veeva

★GSK ★诺华 ★ 辉瑞 ★ 默沙东

★CBinsight最新报告 ★ Cedar

★ 再识患者社区&如何利用患者数据为自己赋能

★ 制药行业转型的6个方向

★ 全球顶尖的20家药企风险基金投向何处？

★ 盘点全球40余家AI辅助制药企业

★ 电子处方成千亿处方外流市场标配，互联网医院、医药电商、零售药店在如何布局？

“心理健康+案例”专题

★ 医童康 ★ 心之爱

★ Talkspace ★ 壹心理

★ Headspace ★ 暖心壹疗

★ 互联网+心理服务能否让用户买单？

★ 35家海外数字心理健康企业盘点

声明：动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。文中出现的采访数据均由受访者提供并确认。未经许可，禁止进行转载、摘编、复制及建立镜像等任何使用。

登录查看更多

相关内容

医渡云

关注 1

医渡云（北京）技术有限公司于2012年02月03日在海淀分局登记成立。法定代表人吕冬辰，公司经营范围包括技术推广服务；经济信息咨询（不含行政许可的项目）等。

【ACL2020】命名实体识别即依存解析，Named Entity Recognition as Dependency Parsing

专知会员服务

61+阅读 · 2020年5月15日

【中科院】命名实体识别技术综述

专知会员服务

157+阅读 · 2020年4月21日

《信息技术人工智能面向机器学习的数据标注规程》，中国电子工业标准化技术协会

专知会员服务

59+阅读 · 2019年12月14日

《中国大数据与实体经济融合发展白皮书》（2019版），44页PDF，中国信息通信研究院编

专知会员服务

73+阅读 · 2019年11月9日

《人工智能安全标准化白皮书（2019版）》发布, 95页PDF，全国信息安全标准化技术委员会

专知会员服务

98+阅读 · 2019年11月4日

报名 | 全国知识图谱与语义计算大会（CCKS 2019）评测任务发布

开放知识图谱

34+阅读 · 2019年3月19日

阿里健康夺冠中文电子病历实体识别评测任务

AI掘金志

40+阅读 · 2018年8月17日

动态 | 阿里健康夺冠中文电子病历实体识别评测任务

AI科技评论

7+阅读 · 2018年8月17日

【知识图谱】【智能医疗】病历智能处理引擎的设计、实现和应用

产业智能官

11+阅读 · 2018年1月6日

【智能医疗】【知识图谱】中文电子病历命名实体识别的主动学习方法 | 病历智能分析系统的研究与实现 | 临床路径知识建模研究

产业智能官

29+阅读 · 2017年12月10日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

Multimodal Named Entity Recognition for Short Social Media Posts

Arxiv

8+阅读 · 2018年2月22日

Graph Convolutional Networks for Named Entity Recognition

Arxiv

17+阅读 · 2018年2月14日

Deep Active Learning for Named Entity Recognition

Arxiv

15+阅读 · 2018年2月4日

Adversarial Learning for Chinese NER from Crowd Annotations

Arxiv

15+阅读 · 2018年1月16日

VIP会员