OpenKG地址:http://openkg.cn/dataset/ckgg
GitHub地址:https://github.com/nju-websoft/CKGG
数据地址:https://doi.org/10.5281/zenodo.4668711
论文地址:https://doi.org/10.1007/978-3-030-88361-4_25
开放许可协议:CC BY-SA 4.0
贡献者:南京大学(沈俞霖,陈子恒,程龚,瞿裕忠)
为解决高质量高中地理知识图谱缺乏的问题,我们首先从教辅资料中构建了覆盖高中地理核心概念的本体。以此为基础,我们构建了中文高中地理知识图谱 CKGG (Chinese Knowledge Graph for Geography),覆盖高中阶段的核心知识。我们基于 GeoNames 和 Wikidata 的实体合并得到了 CKGG 中的地点实体,并使用了多种工具整合了不同来源不同格式的数据。CKGG 共包含 15 亿个 RDF 三元组,120 余万实体。下图概述了 CKGG 的数据来源。
CKGG 的本体包含 755 个类,304 个简单属性,89 个复杂属性。CKGG本体的一个示例如下。
我们使用7步法构建本体,详细过程为:
明确范围:CKGG 需覆盖高中地理教材/教辅中的大部分核心概念,我们使用教辅资料作为本体的数据源。
考虑重用:我们重用了标准的 RDF 和 RDFS 术语表达实体的名称和类型,重用了 WGS84 Geo Positioning 术语 (wgs84_pos:lat, wgs84_pos:long) 表达实体的经纬度信息,并重用了 Clinga 本体的行政区划层级关系。
列举术语:我们人工从教辅资料中收集了术语,并加入了少量的常识术语(如“公共设施”)
定义类:我们使用自顶向下的方法,定义了地理实体大类,在大类下定义了地点、气候类型等子类,并根据教辅资料和常识对类进行了进一步细分。
定义属性:我们将收集到的术语中的属性关联到其对应的 rdfs:domain 类型上。大多数属性的 rdfs:domain 类型为“地点”,例如海拔高度、气候类型、受洋流影响等。此外我们定义了“上级地点”属性,表述地点之间的从属关系。
定义约束:对每个属性,我们通过定义 rdfs:range 属性设置了它们的取值范围。对于一些枚举类型的属性,我们使用了 owl:oneOf 进行定义。例如“科技水平”被定义为可取值“极高”、“高”、“中”、“低”、“极低”,以便表达此类定性的属性值。
创建实例:对于 CKGG 的本体,我们没有定义对应实例,实例将在 CKGG 的图谱中构建时进行定义。
实体构建:我们收集了 GeoNames 的所有实体和 Wikidata 的含中文标签和经纬度的地理实体。我们使用了两个数据源中原有的实体之间的对应关系。此外,我们使用启发式的方法得到了 GeoNames 中可能重复的实体之间的关系。最后我们使用这些对应关系将相同实体合并为 CKGG 中的一个实体。
对气温、降水量、太阳辐射量,我们使用了网格数据源,数据源中地表按经纬度划分为了多个网格,每格对应了一个值。我们使用上一步得到的标准经纬度对每个地点的属性进行赋值。
对地点多边形范围,我们使用了 GIS 多边形数据源。将地点的多边形范围赋值后,我们根据此范围推算出了地点的包含关系。
对地点的洋流、气候等数据,我们使用了 GIS 工具将书本中的气候图和 Wikipedia 中的洋流图分别标注为多边形和折线段,后根据地点与其关系得到地点的气候类型和影响地点的洋流。
对地点的统计信息数据,我们目前对国内的地点进行了处理。我们收集了国家统计局网站上的分省统计数据,并使用自动化与人工结合的方法与本体进行了对齐。此外,我们还收集了国家统计局的行政区划数据,与 CKGG 中的地点进行对齐,以得到行政区的区划代码,使用该代码将统计数据与地点进行关联。
我们通过对高质量的地理数据源进行格式转换,得到了 CKGG 知识图谱,这项工作被语义网领域国际顶会ISWC 2021授予最佳资源论文提名奖。虽然其构建目的主要为针对高中地理教育的应用,我们的图谱也能用于其他地理应用。下一步工作我们将向 CKGG 中填充更多数据,并研究 CKGG 在问答系统中的应用。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。