阮彤 | 中文医疗健康知识图谱在临床电子病历挖掘中的应用探讨

2017 年 6 月 17 日 开放知识图谱 阮彤

作者介绍


阮彤 - 现任华东理工大学计算机技术研究所所长,自然语言处理与大数据挖掘实验室主任,专注于自然语言处理、知识图谱方面的研究,承担了多项 863 与科技支撑项目。




以医院电子病历为核心的临床数据记录了病人的疾病、诊断和治疗信息。挖掘此类数据,可以辅助医生了解人口学信息、临床症状、治疗方法和疗效之间的量化关系,帮助病人选择更好的治疗方案,进而提升医疗服务质量,降低医疗成本。

         然而,在临床中,大量的医疗文书是以文本形式存在。同时,医生录入缺乏语义规范,同一诊断与治疗方案,不同医生的录入结果会不同。因此,在挖掘之前,需要对数据进行结构化与规范化。在这个过程中,医疗健康知识图谱是不可或缺的一部分。另外,病历数据处理和使用过程中,通过病历数据与健康图谱的关联挖掘,可以获得更为隐含的、深刻的信息。为处理方便,整体用知识图谱表示与关联,会更为方便有效。

           

一、知识图谱用于医疗文本的结构化与规范化


在临床中,大量的医疗文书是以文本形式存在。子病历的文本包含了病人病史、家族史、症状,以及医生根据症状、理化指标等基础数据做出的诊断等描述。更重要的,临床文本中记录了医生的判断依据,以及对各种诊疗行为的效果跟踪。如果说各种明细记录是结果跟踪,那么文本数据就是过程跟踪的基础。而这些重要的信息保存在非结构化信息中,不能被计算机所理解和处理。

为使得文本更好的结构化,需要用到实体识别、关系抽取技术,根据技术的不同,也会用到一些基础的文本分词或是词法分析等技术,在这个过程中,可以手工标注语料,用各种监督学习方法,传统的有 CRF,新的方法可以基于 RNN 网络;也可以基于字典方法,利用症状、检查、药品与疾病名称的知识库。为了免除语料标注的麻烦,笔者基于症状知识库以及症状语法结构做了远程标注,再进行 CRF 建模,取得了比较好的效果。

然而,仅仅是结构化也是不够的,因为医疗术语存在大量的同义词或上下位词,比如说,同一症状具有多种多样的文本表达形式,如“期前收缩”、“过早搏动”与“早搏”是同义词。再比如说,一个症状常常被不同的词语修饰以表达略有不同的语义含义,如“急性背痛”,“慢性背痛”都可以是“背痛”的下位词。

再以疾病为例,目前医学诊断大量采用了 ICD 编码,但 ICD 编码结构并不包含完整的上下位关系。以中文 ICD 编码 [1] 中的“特指急性风湿性心脏病”为例,它的上位词有“特指风湿性心脏病”和“急性风湿性心脏病”,这两种疾病拥有共同的上位词“风湿性心脏病”,“风湿性心脏病”又有上位词“心脏病”。而这几种疾病之间的关系和层次结构并没有在 ICD 10 中通过编码结构表示出来,只是通过编码的首字母“I”将它们划分到了循环系统类疾病中。如过我们需要希望找到某一类患者,无法通过一个ICD编码获得,而是需要人工的选择多个 ICD 编码。从另一个角度而言,对于同一个疾病,医生在编写 ICD 编码时,可粗可细,也会给病历的自动处理带来困难。

为解决上述问题,首先需要现有的编码系统有对应的图谱方式描述,至少具有上下位和同义词关系,进一步的,也可以通过电子病历中的文本诊断,利用图谱,对电子病历数据进行自动编码。

 

二、图谱表示用于关联知识与数据


电子病历中存储着大量的数据,但仅在病历数据内部做挖掘及分析是有局限性的,难以发现数据中蕴含的深层次的价值。将病历数据以 RDF 格式发布,形成病历图谱,并与开放知识库(如中文症状知识库)相关联,将对疾病预测、用药推荐和相似病人发现等打下良好的基础。

比如说,在电子病历用药时,写的会是药品名称,但是,在分析的时候,通常医生会用大类名称,如 ACEI 类药物,或是 ARB 类药物等等。这时候,病历图谱需要和药品图谱关联,就可以更为方便地做各种临床分析,再比如说,Topfed 项目将 TCGA 项目中发布的癌症病人的基因数据进行 RDF 化,并与其它开放数据集关联,进而做了一些有趣的分析,获得了 ISWC2013 的 Semantic Web Challenge 大奖。例如输入一个病人的特征,找到库中与他类似的病人群,根据相似性找到相应的药物方案,如果病人对此药物有抗药性,可以寻找药品库的同类药物。

 

三、总结

            虽然英文已经有了很多开放链接生物医药数据集合,但中文比较缺乏,而中文的电子病历处理又需要中文知识图谱。针对上述问题,我们构建了中文症状知识图谱,并基于电子病历数据做了部分问答式应用。中文症状知识图谱已经放在www.openkg.cn网站,欢迎大家下载。


下载链接http://openkg.cn/dataset/symptom-in-chinese

 


参考资料:


[1]      疾病和有关健康问题的国际统计分类第十次修订本ICD-10[M]. 人民卫生出版社. 1996.

[2]      Saleem M, Padmanabhuni S S, Ngomo AC N, et al. TopFed: TCGA tailored federated query processing and linking toLOD[J]. Journal of Biom edical Semantics, 2014, 5(1):47





OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
2

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【天津大学】知识图谱划分算法研究综述
专知会员服务
110+阅读 · 2020年4月27日
生物数据挖掘中的深度学习,诺丁汉特伦特大学
专知会员服务
68+阅读 · 2020年3月5日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
104+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
313+阅读 · 2019年10月19日
医疗知识图谱构建与应用
专知会员服务
385+阅读 · 2019年9月25日
阿里健康夺冠中文电子病历实体识别评测任务
AI掘金志
40+阅读 · 2018年8月17日
【知识图谱】中医临床知识图谱的构建与应用
产业智能官
60+阅读 · 2017年12月18日
领域应用 | 中医临床知识图谱的构建与应用
开放知识图谱
33+阅读 · 2017年12月12日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
论文动态 | 基于知识图谱的问答系统关键技术研究 #04
开放知识图谱
10+阅读 · 2017年7月9日
Nocaps: novel object captioning at scale
Arxiv
6+阅读 · 2018年12月20日
Arxiv
11+阅读 · 2018年5月13日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员