OpenKG地址:http://openkg.cn/dataset/gakg
网站地址:https://gakg.acemap.info/
论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003
开放许可协议:CC BY-SA 4.0 (署名相似共享)
贡献者:王新兵,张伟楠,邓程等上海交通大学Acemap团队成员,深时数字地球大科学计划团队
地球是一切生命的摇篮,也是人类赖以生存的家园,研究地球的自然科学称为地学,包括地理学、物理学、化学等学科。纵观历史,古生物学家研究从46亿年前至今地球上各物种的特征和环境演变,探索环境变化对生物多样性的影响地理学家研究地形、土地形态和气候,发现人类生活引起的全球变暖与地轴飘移有一定关联。地质学家探索海洋,为人类带来更重要的资源,如稀土矿物。由此可见地学在学术领域中扮演的角色不仅让我们了解人类与地球的关系,也帮助我们了解当前 的变化。
2、数据集简介
如前所述,GAKG 是⼀个⼤型多模态学术知识图谱,其中所有的数据均来⾃ AceMap (https://www.acemap.info/ )。GAKG的模式图由11个概念和19个连接概念的关系组成。每一个实体都有一个概念与之对应,并且具有一定的属性。具体概念相关信息如表 1 所示。
表 1 概念及其含义、属性和数量
表 2 关系及其解释和数量
3.1 知识实体抽取
表 3 问题及其对应的关系和数量
在资深地球科学家的帮助下,我们结合维基百科的分类和AceMap界定的学术领域之间的关系,构建了地球科学知识的层次结构。GAKG认为学术知识图谱的本体是学术的知识体系,实例为一篇篇论文。
地理位置的数据主要来自于配图和论文中提及的文本。对于地理插图,我们首先通过pdffigures2进行图片抽取,随后使用PaddleOCR进行文本识别,再通过geocoder生成坐标并从插图中的数字提取经纬度范围。OCR识别的一个例子如图1所示。对于地理/社会/政治实体,我们构建了基于BERT的命名实体识别模型,并通过geocoder得到坐标。
我们开发了基于规则的增强信息提取方法,提取了论文标题、摘要和导论中提到的地理年代信息的实体。根据地理时代词在论文中的位置以及前后出现的词,计算置信度得分并选取达到一定阈值的。论文的地址时间尺度分布如图2所示。
图 2 随地质时代的论文分布
地球科学的探索,是将各学科知识落实在地球未知的区域、未知的时代和未知的领域中。我们面向对地球科学知识有一定研究和专业背景人员,基于全域地学知识图谱,提供学科或主题科技资源的语义信息检索和知识发现服务,支撑大数据-大知识双轮驱动的地学创新研究。
一个创新的研究,要对学科领域的论文进行充分的调研,地学也是如此。我们对此给出多模态的地学语义搜索系统。区别于谷歌学术等学术搜索引擎,GAKG-Search基于GAKG的地学文章知识点和提及的关键要素进行语义层面的相关性匹配,并返回论文及论文涉及的图片、表格、时代以及地理位置信息,弥补了关键词匹配式搜索忽略了语义信息的缺点。
一个学术的探索,要对领域的知识体系有全面的认识,并且也要清楚了解知识体系中的各类知识点涉及的论文、年代和地理位置信息。GAKG-Navi提供了由地学专家人工挑选的地学全知识体系的可视化,同时每个知识点关联了相关的论文、图片、表格、百科知识和数据集,并对相关的文章给出机器生成的总结摘要。用户可以在此独特的系统中进行知识点的遨游和穿梭。
在进行地学知识的探索过程中,要对文献在世界上的分布有充分的认识,GAKG-PaperOnTheMap提供了基于Paper关联POI的数据,每篇文章谈论涉及若干地点,本系统通过GPE抽取和经纬度坐标抽取将论文与地理信息系统关联起来,联同论文谈论的年代信息,给学者以时空维度的论文检索体验,方便学者对地学知识进行探索。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。