开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)

2021 年 8 月 8 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/diakg

阿里云天池:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=88836

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:妙健康(常德杰、刘朝振、刘利平、李栋栋、李伟),阿里云(陈漠沙),清华大学(许斌)




DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction
论文来源:CCKS 2021
论文链接:https://arxiv.org/pdf/2105.15033.pdf

1. 摘要

为了加速医学领域知识的研究,精准化健康管理平台妙健康联合阿里云天池平台 清华大学合作提出了一个高质量的中文糖尿病知识图谱数据集DiaKG,该数据集共包含22050个实体和6890个关系,目前是中文领域首个糖尿病相关的标注数据集。

2. 背景

糖尿病(Diabetes)是代谢性疾病,也是慢性疾病,中国是世界上糖尿病患者最多的国家,病人达到1.1亿,每年有130万人死于糖尿病及其相关疾病。糖尿病病因复杂,表现出的症状多种多样,这为糖尿病的诊断和治疗带来了很大的困难。国务院颁布的《“健康中国2030”规划纲要》中,也将糖尿病列入到重点监控的慢性病中。知识图谱在构造信息和概念知识的建模中已经被证明是有效的,特别是在医学领域,为了促进医学自然语言处理技术在糖尿病文本领域的应用以及糖尿病知识图谱的构建,我们推出了DiaKG。

3. 数据集

3.1 数据来源

该数据集来源于公开发表的41篇糖尿病指南和共识,涵盖了近年来最广泛的研究内容和热点领域,包括基础研究、临床研究、药物使用、临床病例、诊疗方法等等,是构建糖尿病知识库的权威资源。
3.2 标注规范
本数据集标注由两位经验丰富的内分泌专家设计了标注指南。本指南侧重于“实体”和“关系”,因为这两种类型是知识图谱的基本元素。共定义了18类实体类型和15类医学关系。实体关系类型定义和示例如表1和表2:

表1:  实体类型定义和示例

表2: 关系类型定义和示例
3.3 标注过程
首先通过OCR工具将原始的PDF专家指南文件转换为纯文本格式,之后由标注人员对OCR识别结果进行校正,诸如“β细胞”被识别为“B细胞”,确保识别出来的文字和符号都是正确的。因为本数据集是侧重文本的,因此原始PDF中出现的表格、图表等信息均做了过滤,仅留下文本信息作标注。
标注人员由制定标注规范的2名内分泌科专家和6名医学院研究生来完成。此外为了提高标注数据的可用性,1名AI专家也参与标注过程,算法专家会从模型的视角给给予标注人员直接的反馈。
标注过程分为试标注(Trail Annotation)、正式标注和质检三步。试标注阶段的反馈信息会汇总给两名医学专家用于优化标注规范,通过多轮标注最终得到了人工标注的高质量表糖尿病知识图谱数据集。标注规范见下图:

图1:DigKG标注流程示意图

3.4 数据集统计信息
该数据集共包含22050个实体和6890个关系。具体类别统计信息如表3和表4:

表3 : DiaKG实体信息统计

表4 : DiaKG关系信息统计
注:Avg Cross-sentence Number表示组成关系的头、尾实体所分布句子的跨句长度。
3.5 数据集特点
相比其他医疗数据集,DiaKG有以下两个特点:
1. 实体数据可能由很长的序列span组成,如表3所示,“发病机理(pathogenesis)”平均长度是10.3个中文字符,对常规的NER模型是个挑战;
2. 组成关系的两个实体跨句子分布,平均跨句长度为2.3,头尾实体跨句子分布是关系抽取任务的难点,也是近年来的关系抽取的研究热点。
希望DiaKG的推出能进一步推动中文医学文本信息抽取技术的发展。有关DiaKG更详细的信息,请读者们参考CCKS 2021上录用发表的论文“DiaKG: an Annotated Diabetes Dataset for Medical Knowledge Graph Construction”。

4. 结语

知识图谱技术的研究和应用具有重要意义。在医疗健康领域的AI应用,事关人的生命健康,更依赖于专业、准确的知识图谱来响应用户的自然语言请求,实现反馈。比如,智能问诊应用可依据医药健康领域的知识库对患者的情况进行初步诊断。我们希望该数据集的发布能够帮助构建糖尿病知识图谱,促进基于人工智能的应用的发展。

5. 致谢

本论文由妙健康常德杰负责论文撰写,刘朝振提供算法实验指导,刘利平、李栋栋和李伟负责模型实验以及部分论文章节的撰写。特别感谢阿里云高级算法专家陈漠沙提供数据集构建思路和写作指导,清华许斌教授最终论文的审核。最后感谢标注专家的辛勤细致的付出!



 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。


登录查看更多
3

相关内容

全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议。CCKS源于国内两个主要的相关会议:中文知识图谱研讨会the Chinese Knowledge Graph Symposium (CKGS)和中国语义互联网与Web科学大会Chinese Semantic Web and Web Science Conference (CSWS)。 首届中文知识图谱研讨会于2013年在苏州举行,随后分别在武汉、宜昌成功举办第二次和第三次研讨会。CSWS首次会议于2006年在北京举办,随后的近十年里,逐渐成为国内语义技术领域的主要会议。新的知识图谱与语义计算大会将致力于成为国内知识图谱、语义技术、链接数据等领域的核心会议,并聚集了知识表示、自然语言理解、智能问答、知识抽取、链接数据、图数据库、图挖掘、自动推理等相关技术领域的重要学者和研究人员。
专知会员服务
37+阅读 · 2021年9月15日
专知会员服务
79+阅读 · 2021年5月27日
专知会员服务
37+阅读 · 2021年5月14日
【北京大学冯岩松】基于知识的自然语言问答
专知会员服务
43+阅读 · 2020年11月15日
专知会员服务
190+阅读 · 2020年10月14日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
开源开放 | 中国近代历史人物知识图谱
开放知识图谱
2+阅读 · 2021年12月3日
OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE
开放知识图谱
7+阅读 · 2021年11月1日
开源开放 | 计算机科学示意图问答数据集CSDQA(CCKS2021)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 移动应用知识图谱MAKG(CCKS2021)
开放知识图谱
0+阅读 · 2021年8月9日
开源开放|CCKS2021入选开放图谱资源简介
开放知识图谱
0+阅读 · 2021年8月6日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
33+阅读 · 2021年12月31日
Arxiv
99+阅读 · 2020年3月4日
Arxiv
14+阅读 · 2019年11月26日
VIP会员
相关VIP内容
专知会员服务
37+阅读 · 2021年9月15日
专知会员服务
79+阅读 · 2021年5月27日
专知会员服务
37+阅读 · 2021年5月14日
【北京大学冯岩松】基于知识的自然语言问答
专知会员服务
43+阅读 · 2020年11月15日
专知会员服务
190+阅读 · 2020年10月14日
基于多来源文本的中文医学知识图谱的构建
专知会员服务
52+阅读 · 2020年8月21日
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员