图谱实战 | 徐美兰：深度应用驱动的医学知识图谱构建

会员服务 ·

图谱实战 | 徐美兰：深度应用驱动的医学知识图谱构建

2022 年 1 月 16 日 开放知识图谱

转载公众号 | DataFunSummit

分享嘉宾：徐美兰浙江数字医疗卫生技术研究院数字医学知识中心主任

编辑整理：李杰京东

出品平台：DataFunTalk

导读：数研院这些年在知识图谱建设上取得了丰硕成果，今天我们将图谱构建过程中的经验、心得分享给大家，欢迎大家讨论交流。本次分享的题目为：深度应用驱动的医学知识图谱构建，主要内容包含4方面：

国内外医学知识图谱发展情况
医学知识图谱的领域特征和应用需求
数研院医学知识图谱构建：模型建立、“七巧板”本体术语集构建、“汇知”图谱构建
医学知识图谱应用案例

国内外医学知识图谱发展情况

1. 知识图谱概念

知识图谱广义概念：作为一种技术体系，指大数据知识工程的一系列代表性技术的总称。

知识图谱狭义概念：作为一种知识表示形式，知识图谱是一种大规模语义网络，包含实体、概念及其之间的各种语义关系。如下图中的二甲双胍知识图谱片段。

2. 国外医学知识图谱

UMLS：由美国国家医学图书馆自1986年起研究和开发的一体化医学语言系统，包含超级词表、语义网络、专业词典和词汇处理工具。其规模：语义网络包含133种语义类型，54中语义关系。超级叙词表包含300多万概念，1300多万概念名称。

SNOMED CT：2002年1月，SNOMED首次发布，它由两大医学术语SNOMED RT与CTV3合并而来，国际版SNOMED CT在每年的1月和7月更新一次。SNOMED CT核心构建是概念、描述（术语）和关系。其规模：目前包含19种语义类型，50多种语义关系，35万概念，120万描述（术语），110万关系。

3. 国内医学知识图谱

CUMLS：由中国医学科学院医学信息研究所基于UMLS开发的中文一体化医学语言系统，包含医学词表、语义网、构建工具与平台。其规模：共收录医学主题词3万余条、入口词3万余条、医学术语10万余条、医学词汇素材30万余条。

医药卫生知识服务系统：由中国医学科学院医学信息研究所承建，通过对资源的深度挖掘和关联分析，建设了知识图谱、知识脉络分析等特色知识服务和应用。其规模：已发布疾病和药品领域知识图谱，其中疾病涵盖心脑血管疾病、呼吸系统疾病、免疫系统疾病、消化系统疾病、肿瘤等。

中医药知识图谱：中国中医科学院中医药信息研究所依托中医药学语言系统（TCMLS）构建了中医药知识图谱。其类型包括：基于中医药学语言系统的知识图谱、中医美容知识图谱、中医养生知识图谱、中国临床知识图谱。

OpenKG：由中国中文信息学会倡导的中文领域开放知识图谱社区项目，主要工作内容包括：OpenKG.CN（开放图谱资源库）、cnSchema（中文开放图谱Schema）和Openbae（开放知识图谱众包平台）。

医学知识图谱的领域特征和应用需求

1. 医学知识的特点

医学术语多样性：不同知识源对同一个概念采用了不同术语进行表达。比如：糖尿病又可称为消渴症、消渴、DM等。

精度要求高：医学知识专业性强，医学应用场景容错率低，因此医学知识图谱的精确度要求高。

复杂度高：医学是经验总结的科学，医学概念的内涵往往比较丰富，且有些医学知识复杂很难用简单三元组表达。

2. 医学知识图谱应用场景

医学知识图谱的不同应用场景需求侧重点也有所不同，需要最大化的满足才能提高图谱的适用性。如下所示：

3. 定制化解决方案

为满足行业深度应用需求，医学知识图谱构建时需引入更多定制化解决方案，如下所示：

数研院医学知识图谱构建

1. 模型建立

医学领域的知识图谱由于其知识专业性强，行业通常采用自上而下的方式，先构建Schema，再抽取知识。

数研院医学知识图谱Schema主要参考了UMLS语义网络、Schema.org、cnSchema等。相关数据涉及四大领域：疾病、药品、手术操作、检验检查。当然我们在知识图谱的构建过程中，会根据抽取和应用的实际情况，不断完善和优化Schema。数研院医学知识图谱于2019年8月首次发布Schema，目前包含72种语义类型、493种语义关系。Schema查询和下载地址为：http://schema.omaha.org.cn/class/Thing#。

Schema分别用于指导“七巧板”医学本体术语集和“汇知”医学知识图谱的构建，完善医学知识表达的体系。我们之所以在一个模型指导下构建两个知识库，是为了解决不同的问题。“七巧板”采用本体解决与逻辑定义（即内涵定义）相关的关系，以及层次关系。“汇知”采用语义网络解决可能性、经验性的关系，并且无层次关系。具体请看下图：

2. “七巧板”本体术语集构建

本体术语集的构建整体有6个步骤，依次如下所示：

Step1：确定领域范畴。当前我们以满足临床诊疗需求为切入点，开始尝试构建医学知识图谱。主要涉及范围：疾病、症状、体征，手术操作、检验检查，药品，人体形态结构，基因，医疗器械。

Step2：选取合适的知识源。充分收录行业现行标准、教科书、指南等权威知识源，并同时补充临床病历、互联网诊疗中的术语等。

Step3：梳理重要术语。梳理领域中的重要术语，并由领域专家进行语义层面的实体归一，完成概念化。相关流程如下所示：

Step4：建立关系。“七巧板”医学本体术语集的核心构建包括：概念、术语、关系及映射。如下图所示：

充分保留知识源中的已有层级关系，通过机器推理、人工添加的方式进行优化。挖掘知识源中的属性关系，并通过机器推荐、人工添加进行补充。制定明确的映射规则，采用机器推荐、专家审核的方式建立映射。

Step5：存储和浏览。采用关系型数据库，分为概念表、术语表、关系表、映射表进行存储，且保留历史痕迹。术语浏览器实现术语集构建的快速查找，并可按需实现子集定制。如查看关系操作如下所示：

Step6：平台及工具支撑。自研的知识库维护平台（CoWork），内嵌术语集研制规则，支持多人共同协作。CoWork中“七巧板”的功能如下所示：

CoWork中术语集编辑器可实现概念层面的编辑功能需求，并支持多人同时在线协作，协作方式为不创建分支，采用编辑锁。术语映射工具利用算法推荐，调高映射效率。目前“七巧板”术语集收录97万概念、123万术语和292万关系，包含疾病、操作、药品等语义类型。我们在持续进行更新维护，按季度发布，每季度第一个月20号发布新版本。

3. “汇知”图谱构建

“汇知”知识图谱的构建有五个步骤，分别如下：

Step1：选取合适的知识源。选取临床指南、临床路径、医学书籍文献等权威知识源，并同时补充医学百科类知识。简言之，即非结构化知识源+半结构化知识源+结构化知识源。

Step2：知识抽取。具体内容包括：实体识别和关系抽取。

实体识别通过基于规则的命名实体识别+专家审核提高标注效率，产生的标注数据用于训练深度学习模型。具体流程如下所示：

关系抽取基于实体识别的结果，专家标注关系，产生的标注数据用于句法规则总结和半监督学习。具体流程如下所示：

Step3：知识融合。最大化地将“汇知”图谱与“七巧板”术语集融合，可为图谱的深度应用打下基础。其过程大致包括实体归一、实体对齐、关系融合等阶段。具体操作如下所示：

Step4：知识存储和检索。除传统的三元组外，加入“属性组”和“来源”字段，使知识表达更加准确，同时确保知识的可溯源性。保留三元组的来源，满足三元组在不同场景应用的需求。还可通过可视化搜索，快速直观地查看图谱数据，如下图所示：

Step5：平台及工具支撑。自研知识库维护平台（CoWork）,内嵌知识图谱集研制规则，支持多人共同协作。CoWork中“汇知”的功能描述如下：

用户可创建多种自定义标注方案，批量上传和分配任务，在基于brat的文本标注工具上，各地志愿者可合作共建知识图谱。“汇知”图谱目前已发布7个领域，共计约11万实体，82万三元组，每个季度第二个月20号发布新版本。前述7个领域如下所示：

最后，数研院发起的知识图谱协作项目已持续开展5年，已有百名个人志愿者、多家优秀企业参与。贡献榜如下所示：

医学知识图谱应用案例

1. 智能预警

知识图谱作为底层支撑，辅以更多规则，实现更全面的临床诊疗推理。如下低钾案例所示：

此外，还可基于知识图谱进行推理，实现实验室危急结果的预警和处方异常预警。如下胸痛案例所示：

2. 指南推荐

基于医学本体层级关系推理后进行推荐，使推荐结果更丰富。如下科塔尔综合征案例所示：

另外，还可根据患者信息，推荐相似病历、临床路径、指南等，辅助医生制定治疗计划、规范治疗流程。如下案例所示：

3. 数据直报

将医学知识图谱中的部分内容作为信息模型中的值集，实现医疗数据与医学知识之间的绑定。术语绑定指：将医学术语集中的概念分配临床信息模型中的具体数据单元，从而实现医学术语和临床信息模型的联系和赋予某种程度上的语义。读者可参考下图理解：

也可在信息系统中提前设定相应规则，基于“法定传染病”子集，进行传染病直报判断与提示。如下图所示：

除此以外，其他应用还包括：智能编码、科研分析等。如果读者感兴趣可关注我们的官网动态~

今天的分享就到这里，谢谢大家。

分享嘉宾：

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

《智慧城市知识图谱模型与本体构建方法》拓尔思知识图谱研究院等

专知会员服务

48+阅读 · 2022年3月27日

浙江大学《知识图谱导论》课程

专知会员服务

206+阅读 · 2021年12月26日

肺部影像解剖结构分割数据集及应用

专知会员服务

28+阅读 · 2021年10月6日

最新《知识图谱:构建到应用》2020大综述论文，261页pdf

专知会员服务

292+阅读 · 2020年10月6日

基于多来源文本的中文医学知识图谱的构建

专知会员服务

53+阅读 · 2020年8月21日

最近《金融知识图谱构建》论文，79页pdf

专知会员服务

145+阅读 · 2020年8月21日

面向司法案件的案情知识图谱自动构建

专知会员服务

126+阅读 · 2020年4月17日

中文知识图谱构建技术以及应用的综述

专知会员服务

317+阅读 · 2019年10月19日

知识图谱本体结构构建论文合集

专知会员服务

110+阅读 · 2019年10月9日

医疗知识图谱构建与应用

专知会员服务

390+阅读 · 2019年9月25日

图谱实战 | 医学知识图谱的价值与应用场景

开放知识图谱

5+阅读 · 2022年4月6日

图谱实战 | 斯坦福黄柯鑫：图机器学习在生物图上的应用

开放知识图谱

1+阅读 · 2022年1月20日

图谱实战 | 京东商品图谱构建与实体对齐

开放知识图谱

0+阅读 · 2022年1月4日

知识图谱的自动构建

DataFunTalk

57+阅读 · 2019年12月9日

一文详解知识图谱关键技术与应用 | 公开课笔记

AI100

12+阅读 · 2018年9月8日

【知识图谱】中医临床知识图谱的构建与应用

产业智能官

61+阅读 · 2017年12月18日

领域应用 | 中医临床知识图谱的构建与应用

开放知识图谱

33+阅读 · 2017年12月12日

【知识图谱】医学知识图谱构建技术与研究进展

产业智能官

44+阅读 · 2017年11月16日

医学知识图谱构建技术与研究进展

人工智能学家

18+阅读 · 2017年11月11日

徐波 | 百科知识图谱构建

开放知识图谱

13+阅读 · 2017年9月11日

基于语义相似度的古代散在针灸知识框架构建研究

国家自然科学基金

0+阅读 · 2013年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

面向特定情报分析应用的知识组织系统快速构建关键问题研究

国家自然科学基金

1+阅读 · 2012年12月31日

广义粗集的拓扑结构、方法及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于语义的医学领域前沿知识发现及演化机制研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于高通量表观基因组图谱的癌症分子分型的系统分析

国家自然科学基金

1+阅读 · 2012年12月31日

基于语义网络的传统针灸概念体系表示及应用研究

国家自然科学基金

0+阅读 · 2012年12月31日

诊疗本体自动构建方法与过程驱动的本体进化机制研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

基于知识元的中医古籍计算机知识表示体系研究

国家自然科学基金

0+阅读 · 2009年12月31日

Tight limits and completions from Dedekind-MacNeille to Lambek-Isbell

Arxiv

0+阅读 · 2022年4月20日

Joint Learning of Feature Extraction and Cost Aggregation for Semantic Correspondence

Arxiv

1+阅读 · 2022年4月19日

Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and Translation

Arxiv

0+阅读 · 2022年4月18日

Delving Deep into Regularity: A Simple but Effective Method for Chinese Named Entity Recognition

Arxiv

0+阅读 · 2022年4月18日

Quantum Meet-in-the-Middle Attack on Feistel Construction

Arxiv

0+阅读 · 2022年4月18日

Categorical Data Structures for Technical Computing

Arxiv

0+阅读 · 2022年4月16日

Shape-guided Object Inpainting

Arxiv

0+阅读 · 2022年4月16日

The Importance of Landscape Features for Performance Prediction of Modular CMA-ES Variants

Arxiv

0+阅读 · 2022年4月15日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

Constructing Narrative Event Evolutionary Graph for Script Event Prediction

Arxiv

11+阅读 · 2018年5月16日

VIP会员

图谱实战 | 徐美兰：深度应用驱动的医学知识图谱构建

相关内容

知识荟萃

更多