开源开放 | 多模态地球科学知识图谱GAKG

2022 年 7 月 8 日 开放知识图谱

OpenKG地址:http://openkg.cn/dataset/gakg

网站地址:https://gakg.acemap.info/

论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003

开放许可协议:CC BY-SA 4.0 (署名相似共享)

贡献者:王新兵,张伟楠,邓程等上海交通大学Acemap团队成员,深时数字地球大科学计划团队


1、背景

地球是一切生命的摇篮,也是人类赖以生存的家园,研究地球的自然科学称为地学,包括地理学、物理学、化学等学科。纵观历史,古生物学家研究从46亿年前至今地球上各物种的特征和环境演变,探索环境变化对生物多样性的影响地理学家研究地形、土地形态和气候,发现人类生活引起的全球变暖与地轴飘移有一定关联。地质学家探索海洋,为人类带来更重要的资源,如稀土矿物。由此可见地学在学术领域中扮演的角色不仅让我们了解人类与地球的关系,也帮助我们了解当前 的变化。

目前,地学的数据库资源集成度较低,学术知识图谱比较稀少,且往往是概念级的,只是简单地让每个实体代表一个地理对象。与其他学科不同,地学数据包含大量丰富的地理位置、地质时间尺度和反映地学多模态的地图。因此这种文献计量学信息无法综合反映地学学术数据,文章中离散的图像、文本和时间尺度也没有得到充分耦合。这一现状可能阻碍地学的研究。为解决上述问题,上海交通大学Acemap研究团队背靠DDE项目设计了一个新颖的地球科学多模态学术知识图谱GAKG ,希望能为地学领域、数据挖掘和信息检索领域的研究者们提供数据和服务。

2、数据集简介

如前所述,GAKG 是型多模态学术知识图谱,其中所有的数据均来 AceMap (https://www.acemap.info/ )。GAKG的模式图由11个概念和19个连接概念的关系组成。每一个实体都有一个概念与之对应,并且具有一定的属性。具体概念相关信息如表 1 所示。

1 概念及其含义、属性和数量

关系也可以被视为概念的对象属性。具体概念相关信息如表 2 所示。

表 2 关系及其解释和数量

3、构建过程

3.1 知识实体抽取

GAKG提出了Human-In-the-Loop方法来进行知识实体抽取。我们首先提出5个问题,分别对应5种知识与论文之间的关系,随后利用基于ERNIE的模型框架训练机器阅读理解模型,用于对所有论文找出每篇论文对这5个问题的答案,最后将其与知识实体联系起来。具体信息见表3。

表 3 问题及其对应的关系和数量

3.2 地球科学知识本体

在资深地球科学家的帮助下,我们结合维基百科的分类和AceMap界定的学术领域之间的关系,构建了地球科学知识的层次结构。GAKG认为学术知识图谱的本体是学术的知识体系,实例为一篇篇论文。

3.3 地理位置信息提取

地理位置的数据主要来自于配图和论文中提及的文本。对于地理插图,我们首先通过pdffigures2进行图片抽取,随后使用PaddleOCR进行文本识别,再通过geocoder生成坐标并从插图中的数字提取经纬度范围。OCR识别的一个例子如图1所示。对于地理/社会/政治实体,我们构建了基于BERT的命名实体识别模型,并通过geocoder得到坐标。

图 1 插图坐标提取的一个例子。(a)为OCR结果,(b)高亮了识别错误
3.4 地理年代信息提取

我们开发了基于规则的增强信息提取方法,提取了论文标题、摘要和导论中提到的地理年代信息的实体。根据地理时代词在论文中的位置以及前后出现的词,计算置信度得分并选取达到一定阈值的。论文的地址时间尺度分布如图2所示。

图 2 随地质时代的论文分布

4、地学应用

地球科学的探索,是将各学科知识落实在地球未知的区域、未知的时代和未知的领域中。我们面向对地球科学知识有一定研究和专业背景人员,基于全域地学知识图谱,提供学科或主题科技资源的语义信息检索和知识发现服务,支撑大数据-大知识双轮驱动的地学创新研究。

一个创新的研究,要对学科领域的论文进行充分的调研,地学也是如此。我们对此给出多模态的地学语义搜索系统。区别于谷歌学术等学术搜索引擎,GAKG-Search基于GAKG的地学文章知识点和提及的关键要素进行语义层面的相关性匹配,并返回论文及论文涉及的图片、表格、时代以及地理位置信息,弥补了关键词匹配式搜索忽略了语义信息的缺点。

一个学术的探索,要对领域的知识体系有全面的认识,并且也要清楚了解知识体系中的各类知识点涉及的论文、年代和地理位置信息。GAKG-Navi提供了由地学专家人工挑选的地学全知识体系的可视化,同时每个知识点关联了相关的论文、图片、表格、百科知识和数据集,并对相关的文章给出机器生成的总结摘要。用户可以在此独特的系统中进行知识点的遨游和穿梭。

在进行地学知识的探索过程中,要对文献在世界上的分布有充分的认识,GAKG-PaperOnTheMap提供了基于Paper关联POI的数据,每篇文章谈论涉及若干地点,本系统通过GPE抽取和经纬度坐标抽取将论文与地理信息系统关联起来,联同论文谈论的年代信息,给学者以时空维度的论文检索体验,方便学者对地学知识进行探索。




 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
3

相关内容

基于强化学习的知识图谱综述
专知会员服务
194+阅读 · 2022年8月20日
知识图谱在美团推荐场景中的应用
专知会员服务
62+阅读 · 2022年5月21日
复旦发布首篇《多模态知识图谱构建与应用》综述论文
专知会员服务
134+阅读 · 2022年2月14日
知识图谱可解释推理研究综述
专知会员服务
172+阅读 · 2021年12月31日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
193+阅读 · 2020年10月14日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)
开放知识图谱
4+阅读 · 2022年1月12日
开源开放 | 中国近代历史人物知识图谱
开放知识图谱
2+阅读 · 2021年12月3日
OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE
开放知识图谱
8+阅读 · 2021年11月1日
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
最全知识图谱综述#1: 概念以及构建技术
机器学习研究会
74+阅读 · 2017年9月28日
漆桂林 | 知识图谱之语义网络篇
开放知识图谱
19+阅读 · 2017年8月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年8月30日
Arxiv
14+阅读 · 2019年11月26日
Knowledge Representation Learning: A Quantitative Review
Arxiv
14+阅读 · 2018年4月18日
VIP会员
相关VIP内容
基于强化学习的知识图谱综述
专知会员服务
194+阅读 · 2022年8月20日
知识图谱在美团推荐场景中的应用
专知会员服务
62+阅读 · 2022年5月21日
复旦发布首篇《多模态知识图谱构建与应用》综述论文
专知会员服务
134+阅读 · 2022年2月14日
知识图谱可解释推理研究综述
专知会员服务
172+阅读 · 2021年12月31日
面向知识图谱的知识推理综述
专知会员服务
149+阅读 · 2021年11月1日
专知会员服务
193+阅读 · 2020年10月14日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关资讯
OpenKG开源系列 | 海洋鱼类百科知识图谱(浙江大学)
开放知识图谱
4+阅读 · 2022年1月12日
开源开放 | 中国近代历史人物知识图谱
开放知识图谱
2+阅读 · 2021年12月3日
OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE
开放知识图谱
8+阅读 · 2021年11月1日
开源开放 | 多模态实体链接数据集MELBench(CCKS2021)
开放知识图谱
2+阅读 · 2021年8月13日
开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)
开放知识图谱
3+阅读 · 2021年8月8日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
论文浅尝 | 基于知识库的类型实体和关系的联合抽取
开放知识图谱
35+阅读 · 2018年12月9日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
最全知识图谱综述#1: 概念以及构建技术
机器学习研究会
74+阅读 · 2017年9月28日
漆桂林 | 知识图谱之语义网络篇
开放知识图谱
19+阅读 · 2017年8月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
4+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员