OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)

2022 年 1 月 12 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/ocean

开放许可协议:CC BY-SA 4.0

贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)



1、背景

海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海洋问题一直是国家战略问题。在党的十八大报告中首次提出建设海洋强国的战略目标,并在十九大报告中提出“坚持陆海统筹,加快建设海洋强国”。鱼类作为重要的海洋资源,它含有丰富的活性物质。这些活性物质经加工后可添加到人体食品和药品中。随着海洋鱼类相关物、生物制品和生物材料在国民经济和民生中地位的提高,海洋鱼类的数据在科研、科研以及医疗、渔业等多个领域的科学研究中变得越来越重要。 

目前,绝大多数海洋鱼类数据库资源集成度不高,造成数据分散,检索效率低下。各种各样的问题将阻碍海洋鱼类的研究。因此,为了促进鱼类在各个学术领域的研究,迫切需要整合现有的研究资料,保护现有的研究成果。基于此,我们的研究团队收集和建立了海洋鱼类数据集,希望为我国鱼类的科普、教育、商业、生产等领域提供帮助。

2、数据集简介

海洋鱼类百科知识图谱数据包含fish.csv、fishplacerelationship.csv 和 place.csv三个CSV文件。fish.csv 文件中存储的是鱼类基本信息数据集,包含鱼类中英文名称、图片地址、鱼的特性等基本信息,数据量达到 3 万多条,其具体字段信息如表 1 所示。

表 1 鱼类基本信息数据字段解释表

fishplacerelationship.csv 文件存储的是海洋鱼类栖息地数据集,数据量达到 11 万条,其具体字段信息如表 2 所示。

表 2 鱼类栖息地数据字段解释表

place.csv 文件存储的是地理分布数据集,数据量达到 5300 条,其具体字段信息如表 3 所示。

表 3 地理分布数据字段解释表

3、构建过程

3.1 数据来源

数据来自中文海洋鱼类资料库 http://sea.fundiving.com/, 整个网站包括32070 个鱼类物种,每个物种有一个单独的页面介绍,如图 1 所示。

图1.中文海洋鱼类资料库中纺锤骨雀鳝部分数据

介绍页面中包含中英文名字、界门纲目科属种、别名、简介、大小/重量/年龄、生活习性、物种分布、生物学特性等字段。

3.2 据标准化

每个页面都包含鱼类对应的界门纲目科属种等半结构化数据,利用爬虫技术获取鱼类相关信息,将其保存成Json 格式,如图 2 所示。

图2.鱼类信息Json格式

3.3 关系定义和抽取

知识图谱使用三元组进行表达, 例如:实体-关系-实体, 实体-属性-属性值。鱼类名称、英文名、图片地址、界、门、纲、目、科、属、种,这些属于第二种三元组。使用 Json 格式,即键值对,好处之一就是属性和属性值一一对应。在提取的时候,可以直接进行匹配。 

鱼类实体-地理分布-地理实体这是第一种三元组。由于是一段文本,需要从文中提取地理实体,可以使用 NLP 工具进行抽取,比如 Python 第三方开源库NLPIR、PyLTP、DeepKE 等等。

通过传入待处理文本 text,对文本依次进行分词、词性标注、命名实体识别操作。对于有方位的名词,例如西太平洋,需要进行二次处理。抽取效果如图 3所示。

图3.NLP地理实体抽取效果

3.4 知识存储

使用 Neo4J 图数据库进行数据的存储,可以快速获得展示和查询功能。帮助开发人员节省时间在业务思考上。按照 Neo4J 数据库官网所给的格式要求存储CSV 数据。可视化效果如图 4 所示。

图 4.鱼类地理分布情况展示图

4、总结

本文主要是对 OpenKG 上发布的中文海洋鱼类百科数据集的介绍。文中详细介绍了数据集的来源、对数据集进行处理构建知识图谱的过程。



 


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
4

相关内容

浙江大学,简称浙大,坐落于素有“人间天堂”美誉的历史文化名城杭州。前身是1897年创建的求是书院,是中国人自己最早创办的现代高等学府之一,是一所具有悠久历史的教育部直属全国重点大学,985、211工程重点建设高校。据ESI公布的数据,截至2015年9月,浙江大学18个学科进入世界学术机构前1%,居全国高校第二;7个学科进入世界前100位,4个学科进入世界前50位,居全国高校第一。
浙江大学《知识图谱导论》课程
专知会员服务
192+阅读 · 2021年12月26日
《中文信息处理发展报告(2021)》正式发布,473页pdf
专知会员服务
67+阅读 · 2021年12月26日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
49+阅读 · 2021年3月24日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
195+阅读 · 2020年10月14日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
42+阅读 · 2020年7月2日
OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
OpenKG开源系列|开源知识图谱融合工具OpenEA (南京大学)
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
徐波 | 百科知识图谱构建
开放知识图谱
13+阅读 · 2017年9月11日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
1+阅读 · 2022年4月18日
Arxiv
0+阅读 · 2022年4月14日
CSKG: The CommonSense Knowledge Graph
Arxiv
18+阅读 · 2020年12月21日
Arxiv
30+阅读 · 2019年3月13日
VIP会员
相关VIP内容
浙江大学《知识图谱导论》课程
专知会员服务
192+阅读 · 2021年12月26日
《中文信息处理发展报告(2021)》正式发布,473页pdf
专知会员服务
67+阅读 · 2021年12月26日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
49+阅读 · 2021年3月24日
专知会员服务
111+阅读 · 2021年1月8日
专知会员服务
195+阅读 · 2020年10月14日
COVID-19文献知识图谱构建,UIUC-哥伦比亚大学
专知会员服务
42+阅读 · 2020年7月2日
相关资讯
OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
OpenKG开源系列|开源知识图谱融合工具OpenEA (南京大学)
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
徐波 | 百科知识图谱构建
开放知识图谱
13+阅读 · 2017年9月11日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
4+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员