技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

2018 年 12 月 20 日 开放知识图谱

作者:东北大学-知识图谱研究组  任飞亮


TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库,知识库由东北大学-知识图谱研究组开发完成。和已有知识图谱如 Freebase YAGO 相比,TechKG 具有如下主要特点:

1、是一个大型的中文知识图谱知识库。当前,TechKG 共包含大约 5 千万个实体、以及 2.6 亿个三元组。知识规模和 FreebaseYAGO 相当。

2、面向科技。TechKG 的数据源为发表在中文各类学术期刊上的科技论文,和 Freebase YAGO 这些通用知识图谱相比,TechKG 更有侧重性。

3、领域划分完整。当前,TechKG 的数据共分为 38 个研究领域,每个研究领域对应一个学科。据我们所知,TechKG 是当前唯一一个有明确领域分类的大型知识图谱。

通过在 TechKG 上的数据分析,我们还获得了如下一些中文知识图谱所特有的现象。

首先,TechKG 显示,中文作者姓名重名现象严重。我们把作者重名问题分为两类:领域间重名和领域内重名。如果一个作者名出现在不同的研究领域,则该名字称为领域间重名。如果一个作者名字出现在同一领域(比如“计算机”领域)的不同研究机构中,则该名字称为领域内重名。我们的实验结果显示,平均每个中文作者名出现在3.97个领域中。我们甚至发现,有167个作者名(如:张林、刘华、汪洋、张磊、王辉、李兵、张健、陈鹏、王欣、李强、王莉、杨辉、王琳、刘杰、王平、张岩、刘超、陈华、杨军、张志刚等)出现在了所有的领域中。而领域间重名现象则更加复杂,难以精确识别。因为,有时候是同一个作者在不同时间段里处于不同的研究机构,有时候是不同的作者处于不同的研究机构。对于前者,就并不是重名问题,但此时识别难度就要大的多。

其次,领域术语的重名现象严重。这里的领域术语重名是指一个领域术语同时出现在多个领域中。而且,我们的实验结果显示,类似tf*idf的方法并不能有效地消除领域术语的重名问题。比如,即使是取每个领域中tf*idftop-10%的术语,平均每个术语仍会出现在大约2.62个领域中。

第三,严重的数据分布不均衡现象。在之前的研究中,研究者把知识图谱中的关系分为4个类型:1-11-nm-1m-n。我们的统计结果显示,在TechKG中,这4个关系类型所占的比例极度不均衡。我们统计了在不同的tf*idf领域术语过滤条件下这4类关系类型所占的比例,发现tf*idf的过滤条件基本不会对类型分布产生影响:在各个tf*idf设置下,m-n类型关系所占的比例均起过60%m-1类型的关系所占的比例均接近20%1-1类型的关系所占的比例大约在15%左右,而1-n类型的关系则基本可以忽略不计,只有0.01%左右。

我们的初步实验结果显示,TechKG的上述特有现象会对下游的一些任务产生重要影响。如在Knowledge graph embedding任务中,实验结果显示,不仅重名问题(作者重名及领域术语重名)会对实验性能产生严重的负面结果,关系类型不均衡现象也会极大地影响实验的最终性能。实际上,TechKG显示出来的这些特性均为中文中所存在的固有的语言学现象,在FreebaseYAGO这些英文知识图谱中并没有体现。而之前因为没有合适的中文知识图谱数据集,所以,相应的问题并没有得到研究者们的注意。现在,TechKG为研究者们提供了一个可以对上面问题进行深入研究的知识图谱数据集。

基于TechKG,我们还构建了以下几类知识库,每类知识库均分38个领域,每个领域对应一个学科。

  • TechKG10:从TechKG中抽取的子集,抽取规则如下:1)领域术语的tf*idf在前10%2)每个实体至少出现在10个三元组中。

  • TechTerm:一个中文领域术语知识库,每个领域均由从TechKGtf*idf最高的术语中随机选择的1w条术语组成。

  • TechBiTerm:一个术语对知识库,每个领域均由从TechKG中选择的"共现"次数最多的1w个术语翻译对组成。

  • TechAbs:一个由论文摘要组成的知识库,每个领域均由随机选择10w个摘要组成。

  • TechQA:一个问答知识库,基于TechKG10、采用模板生成。

  • TechNER:一个基于TechTerm、采用远程监督方式生成的主要用于进行领域术语识别任务的知识库,每个领域包含3w个训练句子。

  • TechRE:一个基于TechKG10、采用远程监督方式生成的主要用于关系抽取任务的知识库,每个领域由随机选择的20w个训练bags组成,每个bag平均包含6个句子。

 

利用TechKG以及上面的几个知识库,研究者们不仅可以开展知识图谱方向相关的研究(如知识图谱embedding、关系抽取、命名实体识别等),还可以进行如:KBQA、机器翻译、文本分类等多项相关任务的研究。

 

读者可通过以下网站下载TechKG以及相关的几类知识库: www.techkg.cn。也可以通过论文 TechKG: A Large-Scale Chinese Technology-Oriented Knowledge Graph 来了解 TechKG 的详细特性(论文下载地址:https://arxiv.org/abs/1812.06722)。




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

登录查看更多
25

相关内容

YAGO是由德国马普研究所研制的链接数据库。YAGO主要集成了Wikipedia、WordNet和GeoNames三个来源的数据。YAGO将WordNet的词汇定义与Wikipedia的分类体系进行了融合集成,使得YAGO具有更加丰富的实体分类体系。YAGO还考虑了时间和空间知识,为很多知识条目增加了时间和空间维度的属性描述。目前,YAGO包含1.2亿条三元组知识。YAGO是IBM Watson的后端知识库之一。
专知会员服务
129+阅读 · 2020年7月10日
基于小样本学习的图像分类技术综述
专知会员服务
148+阅读 · 2020年5月6日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
86+阅读 · 2020年5月2日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
知识图谱嵌入(KGE):方法和应用的综述
专知
56+阅读 · 2019年8月25日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
漆桂林 | 知识图谱的应用
机器学习研究会
12+阅读 · 2017年9月26日
论文动态 | 基于知识图谱的问答系统关键技术研究 #03
开放知识图谱
8+阅读 · 2017年8月8日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #04
开放知识图谱
10+阅读 · 2017年7月9日
Arxiv
102+阅读 · 2020年3月4日
Conceptualize and Infer User Needs in E-commerce
Arxiv
3+阅读 · 2019年10月8日
Arxiv
20+阅读 · 2019年9月7日
Arxiv
3+阅读 · 2018年8月27日
VIP会员
相关VIP内容
相关资讯
知识图谱嵌入(KGE):方法和应用的综述
专知
56+阅读 · 2019年8月25日
领域应用 | NLP 和知识图谱:金融科技领域的“双子星”
开放知识图谱
21+阅读 · 2018年8月12日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
漆桂林 | 知识图谱的应用
机器学习研究会
12+阅读 · 2017年9月26日
论文动态 | 基于知识图谱的问答系统关键技术研究 #03
开放知识图谱
8+阅读 · 2017年8月8日
论文动态 | 基于知识图谱的问答系统关键技术研究 #02
开放知识图谱
10+阅读 · 2017年8月6日
论文动态 | 基于知识图谱的问答系统关键技术研究 #04
开放知识图谱
10+阅读 · 2017年7月9日
Top
微信扫码咨询专知VIP会员