OpenKG地址:http://openkg.cn/dataset/mdo-dataset
开放许可协议:GPL 3.0
贡献者:武汉科技大学(高峰、龚珊珊、顾进广、徐芳芳)
摘要
本开放资源在医学文档知识的基础上,使用知识图谱相关技术,解决了现有医学知识本体模型存在过于关注概念体系构建、深层次医学知识及关联缺失、无法循证和难以跨病种和学科等不足,提出了一种支持全文内容与结构细粒度知识和知识论证与循证关系表示的医药学融合知识表示模型及其推理机制,且构建了一个面向高血压专病的医药知识图谱来验证这一方法。结果表明,该模型能全面、一致的表达医药学文献、文档中的细粒度知识,同时支持医药学知识的可循证查询和推理。
知识图谱及相关技术的出现为领域知识的结构化提供了全新手段,该技术现已经运用到医疗、教育等领域。如国际疾病分类(International Classification of diseases ,ICD)系统、统一医学语言系统(Unified Medical Language System,UMLS)等,但这些资源主要关注临床术语体系构建,未能对医学文档中除概念树以外的知识内容、知识结构及其内在关联的细粒度医学知识进行表达。
而一些研究者基于常见的医学文档如医学指南文献和药品说明书文档构建医学本体模型时忽略了非重点知识和深层次知识,同时知识也无法循证。所以提出一种新的建模方式对常见的两类医学文档元数据进行本体建模,主要贡献如下:
针对以上不足,使用了一种全新的建模方式,即用细粒度知识表示方式将医学指南和药品说明书中的医药知识全面完整、细粒和可循证表示。同时针对模型内容给出三个方面的推理规则并举例,最后使用IAA标准对模型进行检测,结果表明该模型能融合、一致和可循证地表示医药学知识。
本次构建的细粒度可循证医药知识本体模型包括医学指南知识、药学知识和医学术语这三部分。其中医学指南文献知识表示指南句子类别,指南句子按照语意可分为定义、描述和事件三类,由于定义类句子和事件类句子有较为固定的表述框架,而描述类句子描述话题广泛、表达方式灵活,因此为实现描述类句子词语级语义细粒度知识灵活且简洁的表示,创新性的使用了RDF(RDF Reification)具化方案来对指南文献中的知识进行表达,即使用有描述知识属性将不同的描述类句子与一个三元组(rdf:Statement)集合进行关联,三元组集合中每一个三元组就是具化后的词语级语义细粒度医学知识,而且这一做法也能兼顾指南知识表示的灵活性与规范性。
对各模块本体概念分析后得到的本体概念示例图如下图1-图3所示。
图2 药学知识主要概念和关联
图3 医学术语关联图例
在构建细粒度医药知识的同时,也可增加医药学知识的循证性。医药知识循证分为信息来源追溯和医学循证两部分,因为医学循证较复杂,所以本文增加了循证评估类和循证体系类来对医学循证进一步说明,下图4为医药知识循证示例。
图4 医药知识循证示例
构建医药知识时,由于医药知识体系庞大且且知识之间也存在着关联,因此很多知识可由规则推理得来。本节分别介绍词语级语义细粒度推理、结构细粒度推理和可循证知识推理三部分共9条推理规则。
(1)词语级语义细粒度知识推理
词语级语义细粒度知识作为本体模型中最详细的知识点,包含了丰富的医学知识,针对词语级细粒度知识的特点,给出表1所示规则。
表1 词语级细粒度知识推理规则
(2)结构细粒度知识推理
医学文档中所含有的结构细粒度知识是承接整篇文档和词语级语义细粒度知识的桥梁,关于结构细粒度推理如表2规则所示。
表2 结构细粒度知识推理规则
(3)可循证知识推理
医学循证旨在用证据解答临床问题,可以很好的弥补经验医学所带来的问题,是不同于传统医学的新医学思维模式和临床医学研究方法。相关可循证推理规则如表3所示。
表3 可循证知识推理规则
需要指出的是,医学知识的规则和推理远不止下表中所述部分,本文只针对MDO所支持的代表性推理规则进行列举以说明其对于医药文献的词语级细粒度语义知识、结构细粒度知识和可循证知识的表达和推理能力,以上各类规则可在医学专家的辅助下进行扩展。
表4展示了图谱中每类三元组的数量。
表4 各类知识统计表
对于构建后的资源,我们可以从以下几个方面进行利用:
(1)查询医学相关知识。可在该图谱中查询指南细粒度知识、文献循证知识、药品基本信息知识、药品相互作用知识、药品不良反应知识、药品禁忌知识和药学知识点循证知识等7类知识。
(2)对医学知识进行推理。由推理规则可以推理出额外的医学知识,扩大了知识的延展性,也丰富了图谱知识内容。
(3)用于专业医护人员。现有的医药知识过于分散且复杂,通常情况下很难充分利用起来,对于医学专业人员而言,由于关键医学知识不够直观,且连篇累牍的医学指南在查阅时不便记忆且耗时。那么可以使用该图谱资源进行医学知识的查询。
(4)用于病患及家属查询用药知识。专业医学术语对非医学专业人员在了解疾病时是累赘且无效的,再者查看文字篇幅长、专业化程度高、非结构化的医学文档存在一定的困难,不能够及时有效提取出其中的信息,使用本资源则能快速、方便地得到细粒、简洁且全面知识。
在本开放资源中,我们在构建医学知识模型时增加医学术语模块、RDF具化方案等方法,使用词语级三元组表示医学知识,对医学、药学知识中的专业医学知识进行具体灵活表示,增加了医学循证对指南文献的循证知识进行分析与处理,使医学指南文献和药品说明书文档中的医药知识都能细粒、一致和可循证的表示。同时介绍了词语级语义细粒度、结构细粒度和循证三个方面的推理规则。我们希望此开放资源,可以更好地为知识图谱技术与医学知识的研究提供一定的支持。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。