随着知识图谱在人工智能时代扮演的角色越来越重要,许多研究团队正努力将自己领域的知识组织成机器可读的图谱并以三元组的形式存储。由上海交通大学王新兵教授和张伟楠教授指导的Acemap团队知识图谱小组,近日发布了学术知识图谱AceKG。
Acemap知识图谱(AceKG)现在已向所有研究者和非商业用途开放,小组希望它将有益于对学术数据挖掘的研究和开发。
AceKG基于本体一致性涵盖了1.143亿个学术实体,其中包括61704089篇论文、52498428位作者、50233个研究领域、19843个学术机构、22744种期刊、1278种会议和3个特殊组织。AceKG总共包含22亿条关系信息,模式如下:
与现有公开的学术知识图谱或数据集相比,AceKG有以下几个优点。首先,AceKG有多样的学术信息网络,即具有许多种实体类别和关系类型,能让研究者或工程师进行各种学术数据挖掘实验。其次,AceKG足够庞大(该数据及的大小将近100G),可以覆盖学术本体中的大多数实例,从而使得在此知识图谱上做的实验更具有说服力。最后,AceKG完全以RDF三元组的形式构成,机器可读且易于处理。
未来,他们将为人们提供不同大小的数据集,以便在基于SPARQL查询的Acemap学术系统上开展一些交互式应用的研究和开发。
以下是具体的数据模式:
AceKG使用Apache Jena框架进行驱动。Apache Jena使用TDB数据库存储三元组数据,并且提供SPARQL引擎支持对三元组数据进行查询。具体工程架构如下图所示。
原文地址:acemap.sjtu.edu.cn/app/AceKG/