转自 | “SciTouTiao”微信公众号
开放学术图谱 (OAG)是一个大型学术知识图谱。它连接了两个亿级学术图谱:微软学术 (Microsoft Academic Graph,MAG)和AMiner 。
近日,清华大学和微软研究院联合发布了OAG v2,包含7亿多实体数据和20亿关系,其中包括 AMiner 的2.8亿实体数据(包括:作者、论文、会议、话题)和微软学术的4亿多实体。
OAG v2 实现了两个数据集中实体的自动匹配链接。OAG v2 也是之前发布的OAG v1的一个更新版本。
免费下载网址:https://www.openacademic.ai/oag/
OAG v1
2017年8月,清华大学和微软研究院联合发布的 OAG v1,具体来说包含了来自 MAG 的 166,192,182 篇论文和来自 AMiner 的 154,771,162 篇论文的元数据信息。
经过集成这些数据信息,生成了两个学术图谱之间近 64,639,608 对链接(匹配)关系。
OAG v1概览
OAG v1 在过去一年多的时间里吸引了约 40,000 次下载。这次,OAG v2 在 OAG v1 的基础上增加了作者以及出版地点相关的数据。
OAG v2
OAG v2 包含了更多类型实体(作者,出版地点,论文)以及相应的匹配关系。OAG v2 定义的问题如下图所示。
大规模实体匹配的示例
上面的表格介绍了 OAG 目前有约7亿实体数量,不同实体相互联系构成一个大规模异构网络。图中间表示作者名字的歧义性。
图下面展示了不同类型实体的异构性,因此匹配不同类型的实体需要考虑其不同的特点。
OAG 致力提供完全开放、免费的公开学术图谱。截止2019年1月,OAG 包括约7亿实体和约20亿实体之间的链接关系。OAG v2 的统计数据如下面三个表所示。MAG和AMiner两个学术图谱都在不断演变,OAG v2 采用了 MAG 2018年11月的快照和 AMiner 2018年7月或2019年1月的快照。
数据类型 |
#匹配对/出版地点 |
日期 |
匹配关系 |
29,841 |
2018.12 |
AMiner出版地点 |
69,397 |
2018.07 |
MAG出版地点 |
52,678 |
2018.11 |
表1:OAG出版地点数据统计
数据类型 |
#匹配对/论文 |
日期 |
匹配关系 |
91,137,597 |
2018.12 |
AMiner论文 |
172,209,563 |
2019.01 |
MAG 论文 |
208,915,369 |
2018.11 |
表2:OAG论文数据统计
数据类型 |
#匹配对/作者 |
日期 |
匹配关系 |
1,717,680 |
2019.01 |
AMiner作者 |
113,171,945 |
2018.07 |
MAG作者 |
253,144,301 |
2018.11 |
表3:OAG作者数据统计
注:对于作者匹配,学者们只考虑了论文数不少于5的作者。将论文数量较少的作者排除后, AMiner 中有 6,855,193 位作者,MAG 中有 13,173,936 位作者。
挑战与困难
构建亿级开放学术图谱是一项极具挑战的研究工作。下面举例说明主要的难点所在:
1. 实体异构
OAG 中不同类型的实体具有异构性,它们都有各自不同的特征。例如,出版地点的主要属性是名称,而论文有不同类型的属性,如题目,作者列表,年份等。
此外,不同数据源的相同属性也有异构性。例如论文作者可能存在不同的格式,如 Quoc Le 和 Le, Quoc;出版地点有全称或缩写等多种形式。
2. 实体歧义
同一名称可以表示多个实体,这也给图谱连接带来了很大困难。比如常见姓名通常是作者匹配的难点。对于论文来说,相同的题目也可能代表不同的论文,如在 KDD 2016 中收集了两篇题为 “robust influence maximization” 的不同论文。
3. 大规模匹配
要实现亿级数据集成,如何进行高效计算是另一个重要挑战。以已经公布的论文数据为例,AMiner 和 MAG 各自有约1.7亿和2亿篇论文,因此需要设计一个高效的匹配框架。
为此,学者们尝试结合哈希算法,不同神经网络模型和注意力机制等方法,来连接两个大规模学术图谱上不同类型的实体(出版地点,论文和作者)。
评估
学者们评估了少部分匹配关系(大约1,000个出版地点/论文/作者匹配对),准确率如表4所示。
实体类型 |
出版地点 |
论文 (新匹配) |
作者 |
准确率 |
99.26% |
99.10% |
97.41% |
表4:实体匹配准确率
开放学术图谱是开放学术组织 (Open Academic Society) 的一个重要项目。
它是由微软、清华、艾伦人工智能研究所、亚利桑那大学、华盛顿大学、加州洛杉矶大学、澳洲国立大学等20个全球机构一起联合成立的学术组织,旨在推广学术数据的开放共享、加强学术交流与合作。
开放学术图谱以集成全球不同学术知识图谱、公开共享学术图谱数据、提供相关学术搜索与挖掘服务为目标。
OAG 可以用于多种研究课题,如:网络数据挖掘(论文引用关系网络,作者合作关系网络等),文献内容挖掘,同名作者消歧和学术图谱对齐等。
详细信息欢迎访问:
https://aminer.org/open-academic-graph
https://www.openacademic.ai/oag/
参考文献
[1] Arnab Sinha, Zhihong Shen, Yang Song, Hao Ma, Darrin Eide, Bo-June (Paul) Hsu, and Kuansan Wang. 2015. An Overview of Microsoft Academic Service (MAS) and Applications. In Proceedings of the 24th International Conference on World Wide Web (WWW ’15 Companion). ACM, New York, NY, USA, 243-246. [PDF ][System ][API ]
[2] Jie Tang, Jing Zhang, Limin Yao, Juanzi Li, Li Zhang, and Zhong Su. ArnetMiner: Extraction and Mining of Academic Social Networks. In Proceedings of the Fourteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (SIGKDD’2008). pp.990-998. [PDF ] [Slides ] [System ] [API ]