开源开放 | OpenKG 发布多个新冠病毒相关开放知识图谱

2020 年 2 月 14 日 DataFunTalk

内容来源:OpenKG

温馨提示:疫情期间,勤洗手,戴口罩,减少出行。


导读:2019年12月31日,武汉市发现若干例肺炎病例,该病毒与任何已知病毒均不相符。一周后,有关部门确认了这一新型病毒的发现,暂时命名为 2019 新型冠状病毒(2019-nCoV,以下简称新冠)。随着疫情爆发以来,防控等级不断提升,越来越多的人投入到这场战“疫”中。他们奋斗在抵抗新冠病毒的第一线,甚至为之奉献生命;他们迅速投入到新冠病毒的研究分析中,不断发布新冠病毒的研究结果,让我们对病毒有了更清晰准确的认识;他们积极组织捐赠救灾防护物资,持续为重灾区输送“弹药”;他们持续不断地分享科普新冠病毒的方方面面,警示民众打击谣言......

在这段非常时期, OpenKG 也积极投入到这场战“疫”中,联合来自 同济大学、浙江大学、东南大学、海乂知信息科技、文因互联、小米人工智能实验室、武汉科技大学、复旦大学、海知智能 的知识图谱技术专家联合构建 新冠病毒相关知识图谱 ,并采用 CC-by SA 协议,完全免费开放,供大家下载使用。目前我们已经发布了“ 新冠百科图谱 1.0 版 ”,“ 新冠科研图谱 1.0 版 ”,“ 新冠临床图谱 1.0 版 ”,“ 新冠英雄图谱 1.0 版 ”, " 新冠热点事件图谱 1.0 版 "。这些图谱都采用统一的命名规范和语义格式,后续还将完成跨数据集的关联与融合。我们还发布了“ 新冠开放知识图谱·数据规范 ”,将提供各个图谱的 Schema 文件供大家重用。此外,我们未来还将发布“ 新冠防控图谱 ”,“ 新冠物资图谱 ”,“ 新冠产业图谱 ”。持续更新,敬请关注!
1. 新冠百科图谱
图谱链接:
http://www.openkg.cn/dataset/2019-ncov-baike
百科是基础,所以我们最先发布了百科的图谱 。
1.1 简介以及潜在应用
新冠百科图谱包括病毒、细菌、流行病、传染病等相关实体。图谱以病毒、细菌为主体,扩展了治疗,疾病等相关内容,通过了这些概念的百科知识,形成了新冠百科图谱。
潜在应用: 面向新冠相关术语的语义检索、智能问答,并可用于新冠相关文档的智能搜索和推荐。
后续工作中,将从百度百科,互动百科,中文维基百科,医学百科中进一步挖掘病毒,细菌,疾病,医学之间的关系。 采用基于本体的信息抽取技术,扩充实体的属性信息。 同时,完成与zhishi.me等通用知识图谱的链接。

1.2 数据来源与规模

数据来源
当前数据从百科抽取,以 infobox 作为主要数据源:
  • 百度百科: 通过类别获取数据
  • 互动百科: 通过类别获取数据
  • 中文维基百科: 通过类别获取数据
目前选择的实体类别限定于: 病毒,疾病,细菌。
规模
  • 百度百科: 实例2617个,三元组14411个
  • 互动百科: 实例1626个,三元组10980个,类别48个,上下位关系49个
  • 中文维基百科: 实例765个,三元组10053个,类别213个,上下位关系229个

1.3 可视化样例

2. 新冠科研图谱

图谱链接:
http://www.openkg.cn/dataset/2019-ncov-research

2.1 简介

VirusNetwork 图谱搜集、整理、关联与新冠病毒相关的科研基础数据和科研文献,为后续进一步研究提供数据支撑。
数据集来源于 NCBI(美国国家生物技术信息中心网站)中的 Taxonomy板块,从其中 Viruses “超界”开始,逐层爬取构建数据集。 涉及的概念主要是病毒的家族层级,比如病毒的属、种、目等,即从顶层到分支、枝叶,构建出一颗病毒的家族树。
计划在后续工作中,集成NCBI中的部分其他可用数据集,如病毒的详细数据(包含: 基因、蛋白、宿主、感染症状、FDA批准用药物等)。 并且针对新型冠状病毒所属科、属、种进行针对性的数据补充。

2.2 潜在应用

在后续对于其他属性进行补充与关联、扩充图谱之后,数据集可用于尝试以下应用:
(1)预测新病毒的生物学分类,新物种发现
(2)预测病毒变异性
(3)预测病毒热稳定性
(4)预测病毒的易感群体、宿主
(5)预测病毒的致病部位
(6)预测病毒可导致的症状,可缓解症状的药物
(7)潜在治疗的药物,如老药新用
(8)预测病毒的传播途径、传播种类

2.3 数据 schema

2.4 图谱可视化

  • parent关系用于连接Resource之间的层级关系,比如2019-nCoV 病毒在其家族树种的上层结点是unclassified Betacoronavirus。 通过parent关系可向上遍历家族树。
  • species、genus、family等关系用于直接连接病毒与其属类别、种类别结点。 这样即可不通过遍历家族树直接找到其属。
  • broader用于连接不同的家族概念,比如Genus属就是Species种的一个更宽泛的家族概念。
  • 虚线中的关系和概念是未来工作中会添加的关系和连接的实体类型。 比如病毒的基因实体、蛋白质实体、宿主实体等等。

2.5 schema 简要说明及示例
2.6 数据来源及规模

数据来源: NCBI(美国国家生物技术信息中心网站)中的Taxonomy板块
  • https://www.ncbi.nlm.nih.gov/Taxonomy
数据规模:
  • 概念: 16个
  • 实例: 205494个
  • 对象属性: 12个
  • 三元组数目: 1934206个

3. 新冠临床图谱

图谱链接:
http://www.openkg.cn/dataset/2019-ncov-clinic

3.1 简介以及潜在应用

临床图谱从目前已有的规范文件入手,基于诊疗规范(流行病学+症状+实验室指标+治疗)、研究进展(测序、药物开发、疫苗)、发病统计(丁香园那个), 将研究进展与科研相关联。
图谱以新冠肺炎为核心延展至病毒、治疗方案、症状、方剂等各类概念,形成新冠临床知识图谱,可基于该图谱进行知识问答。
示例问题:

问:疑似病例的诊断标准有哪些?

答:发病前14天内有武汉市及周边地区,或其他有病例报告社区的旅行史或居住史;发病前14天内曾接触过来自武汉市及周边地区,或来自有病例报告社区的发热或有呼吸道症状的患者;聚集性发病;与新型冠状病毒感染者有接触史。新型冠状病毒感染者是指病原核酸检测阳性者。

问:新冠肺炎病情较轻该采用什么治疗方案?

答:卧床休息加强支持治疗、根据病情监测指标、氧疗措施、抗病毒治疗

问:抗病毒治疗治疗药物有哪些?

答:α-干扰素、灭菌注射用水、洛匹那韦、利托那韦、利巴韦林

3.2 数据 schema
3.3 数据来源与规模

数据来源:
  • 《新型冠状病毒感染的肺炎诊疗方案》
  • Wiki百科
  • 中医药知识服务平台  http://www.tcmkb.cn/ 
  • 医疗器械分类目录 
    https://db.yaozh.com/fenleimulu?from=www&position=index_hotdb 
  • https://github.com/liuhuanyong/QASystemOnMedicalKG
数据规模:
  • 概念: 41个
  • 实例: 184个
  • 数值属性: 9个
  • 对象属性: 203个

3.4 可视化样例
4. 新冠英雄图谱

图谱链接:
http://www.openkg.cn/dataset/2019-ncov-hero

4.1 简介以及潜在应用

新冠英雄图谱包括了医疗专家组、因公殉职英雄、武汉当地和全国各地的意见领袖等,涉及生平事迹和基本属性,并与新冠百科、新冠科研、新冠临床等图谱中的一些概念或实体关联。
图谱以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念,形成新冠英雄知识图谱,可基于图谱进行英雄人物动态展示。

4.2 数据 schema

4.3 数据来源与规模
数据来源: 百度百科、微信公众号、知网、澎湃新闻
规模
  • 概念:20 个

  • 实例:439 个

  • 数值属性:50 个

  • 对象属性:463 个

目前图谱中共包含 30 人个人物,其中包括 5 位专家人员,25 位因公殉职人员,具体名单如下:  

专家
因公殉职英雄
人物名单
钟南山
刘大庆
张新忠
崔嵬
张文宏
曾文聪
于正洲
邓少华
李兰娟
何建华
梁医生
黄汉明
张定宇
苏莱曼·巴马丁
毛样洪
姜娜
张继先
宋英杰
陈在华
蒋金波

胡锋
程建阳
李弦

梁武东
马承武
孙训祥

尹祖川
李文亮
章良志

张辉


总计
(人)
5
25

4.4 可视化样例
5. 新冠热点事件图谱

图谱链接:
http://www.openkg.cn/dataset/2019-ncov-event

5.1 简介以及潜在应用

新冠热点事件图谱包含了疫情发生以来一系列的重大事件的知识,事件之间遵循顺承关系,从发生时间,信息来源,标题,事件内容简介等各个维度来揭示疫情。 和上面的新冠百科、新冠科研、新冠临床、新冠防控、新冠英雄等图谱均能建立关联,后续版本还会对事件简介中的非结构化内容进行语义标注和实体链接。
支持对新型冠状病毒的事件在时间上的正向和反向索引。 并提供系列事件发展脉络的枚举。 支持热点事件的查证溯源。 和区块链技术结合可具备对事件的存真鉴伪的功能。

5.2 数据schema
Schema简要说明及示例
5.3 数据来源与规模

数据来源:
人民日报
http://activity.peopleapp.com/broadcast/?from=timeline
丁香医生
https://ncov.dxy.cn/ncovh5/view/pneumonia
腾讯
https://news.qq.com/zt2020/page/feiyan.htm
新浪微博
https://m.weibo.cn
数据规模:
  • 概念: 3个                         
  • 实例: 50个
  • 对象属性: 5个

5.4 图谱可视化
特别鸣谢:
总体协调人

王昊奋(同济大学设计创意学院)
陈华钧 (浙江大学计算机学院)
漆桂林(东南大学计算机学院)
1. 新冠百科图谱
李志强(东南大学苏州联合研究生院)
许茜 (东南大学苏州联合研究生院)
秦旭 (东南大学苏州联合研究生院)
李林(东南大学计算机学院)
殷春锁(东南大学计算机学院)
吴亦珂 (东南大学人工智能学院)
王然(东南大学软件学院)
漆桂林(东南大学计算机学院)
2. 新冠科研图谱
陈卓 (浙江大学计算机学院)
吴杨(浙江大学计算机学院)
邵鑫 (浙江大学药学院)
陈华钧 (浙江大学计算机学院)
3. 新冠临床图谱
蔡嘉辉(海乂知信息科技(南京)有限公司)
杜会芳( 北京文因互联科技有限公司)
冯莉(海乂知信息科技(南京)有限公司)
王昊奋(同济大学设计创意学院)
4. 新冠防控图谱 (待发布)
张美(海知智能)
胡丹阳(武汉科技大学)
王萌(武汉科技大学)
李秋(武汉科技大学)
齐一凡(复旦大学)
刘明慧(复旦大学)
顾进广(武汉科技大学)  
5. 新冠物资知识图谱 (待发布)

刘宇 (武汉科技大学)

徐航 (武汉科技大学)

向军毅 (武汉科技大学)

顾进广(武汉科技大学) 

6. 新冠英雄图谱

李一斌(海乂知信息科技(南京)有限公司)
王智凤(海乂知信息科技(南京)有限公司)
蔡嘉辉(海乂知信息科技(南京)有限公司)
王昊奋(同济大学设计创意学院)
7. 新冠事件知识图谱
刘作鹏(小米人工智能实验室)
王献敏(小米人工智能实验室)
彭茜 (小米人工智能实验室)
戴振 (小米人工智能实验室)
8. 其他技术支援
尚忆秋
耿新鹏(北京文因互联科技有限公司)
李娟 (浙江大学计算机学院)
👇点击 阅读原文 ,获取 新冠开放知识图谱
登录查看更多
5

相关内容

开放的知识图谱数据库,为知识图谱的研究提供数据平台。
计算机视觉用于新冠病毒COVID-19的控制综述,25页pdf
专知会员服务
52+阅读 · 2020年4月22日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
28+阅读 · 2020年4月12日
专知会员服务
26+阅读 · 2020年3月6日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
中文知识图谱构建技术以及应用的综述
专知会员服务
309+阅读 · 2019年10月19日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
关系图谱在贝壳的构建和应用
DataFunTalk
29+阅读 · 2020年3月4日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
史上最大规模1.4亿中文知识图谱开源下载
专知
39+阅读 · 2019年10月14日
知识图谱的系统工程观
中国计算机学会
18+阅读 · 2018年11月13日
知识图谱在贝壳找房的从0到1实践
ResysChina
13+阅读 · 2018年9月6日
漆桂林 | 知识图谱的应用
机器学习研究会
12+阅读 · 2017年9月26日
漆桂林 | 开放:知识图谱发展的必由之路
开放知识图谱
7+阅读 · 2017年6月28日
Arxiv
3+阅读 · 2019年9月5日
Meta-Learning with Latent Embedding Optimization
Arxiv
6+阅读 · 2018年7月16日
Arxiv
4+阅读 · 2018年3月1日
Arxiv
4+阅读 · 2018年2月19日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关VIP内容
计算机视觉用于新冠病毒COVID-19的控制综述,25页pdf
专知会员服务
52+阅读 · 2020年4月22日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
28+阅读 · 2020年4月12日
专知会员服务
26+阅读 · 2020年3月6日
广东疾控中心《新型冠状病毒感染防护》,65页pdf
专知会员服务
18+阅读 · 2020年1月26日
中文知识图谱构建技术以及应用的综述
专知会员服务
309+阅读 · 2019年10月19日
TensorFlow 2.0 学习资源汇总
专知会员服务
66+阅读 · 2019年10月9日
相关资讯
关系图谱在贝壳的构建和应用
DataFunTalk
29+阅读 · 2020年3月4日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
史上最大规模1.4亿中文知识图谱开源下载
专知
39+阅读 · 2019年10月14日
知识图谱的系统工程观
中国计算机学会
18+阅读 · 2018年11月13日
知识图谱在贝壳找房的从0到1实践
ResysChina
13+阅读 · 2018年9月6日
漆桂林 | 知识图谱的应用
机器学习研究会
12+阅读 · 2017年9月26日
漆桂林 | 开放:知识图谱发展的必由之路
开放知识图谱
7+阅读 · 2017年6月28日
Top
微信扫码咨询专知VIP会员