开源开放 | 《大词林》开源 75 万核心实体和围绕核心实体的细粒度概念、关系列表

2020 年 4 月 17 日 开放知识图谱

1《大词林》简介

《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库。自2014年11月推出第一版《大词林》,《大词林》共经历了两次大的版本变化。第一版的《大词林》包含了自动挖掘的实体和细粒度的上位概念词,类似一个大规模的汉语词典,其特点在于自动构建、自动扩充,细粒度的上下位层次关系。第二版的《大词林》引入了实体的义项和关系、属性数据,将每一个实体的义项唯一对应到细粒度的上位词概念路径,让《大词林》中实体的含义更加清晰。

相比于传统的开放域实体知识库,《大词林》的特点在于:1)构建不需要领域专家的参与,而是基于多信息源自动获取实体类别并对可能的多个类别进行层次化,从而达到知识库自动构建的效果。2)其数据规模可以随着互联网中实体词的更新而扩大,很好地解决了以往的人工构建知识库对开放域实体的覆盖程度极为有限的问题。3)每一个实体的义项均能够唯一对应到细粒度的上位词概念路径且具有丰富的实体和关系数据,能够更加清晰明确的展示实体的含义。

2 开源数据规模和用途

本次,我们开源了《大词林》中的75万的核心实体,和该核心实体对应的细粒度概念词(共1.8万概念词,300万实体-概念元组),及相关的关系三元组(共300万)。这75万核心实体列表涵盖了常见的人名、地名、物品名等术语。概念词列表则包含了细粒度的实体概念信息。借助于细粒度的上位概念层次结构和丰富的实体间关系,本次开源的数据能够为智能服务系统,例如问句相似度计算、智能问答等技术提供数据支持。

http://101.200.120.155/browser/页面下有全部开源数据的下载链接,用户也可直接利用下面的链接直接下载全部数据。数据包括JSON格式的schema,同时包括实体列表、概念列表、实体-概念词列表和实体元组列表。


下载地址:http://www.openkg.cn/dataset/hit

             

图1 开源实体的抽样分布情况

 

数据格式如下:

Schema文件, bigcilin_schema.json


实体词表, entity.txt

实体名1

实体名2

……

概念词表, concept.txt

概念词1

概念词2

……

实体-概念词表, hyper.txt

实体名1,上位词1

实体名2, 上位词2

……

实体三元组表, triple.txt

实体名1,关系名1,实体名1

实体名1,关系名2,实体名2

……

 

为方便用户查看不同类别下的实体,将本次开源的实体中常见的类别放在此demo下http://101.200.120.155/browser/。为加快加载速度,此demo仅展示了类别下的抽样实体。

       

     图2 开源实体按类别浏览

3 结语

 

如需要查询更多的数据可使用《大词林》系统网站(http://101.200.120.155/),该系统支持用户查询任意实体,并以有向图的形式展现实体的层次化概念体系,同时支持以目录方式浏览部分公开的知识库。经过如上的改进后,目前《大词林》2.0版已拥有实体30,102,845 (三千万),上位词182,079(十八万),优质的实体上下位关系对15,577,846(一千五百万对),属性-值对79,568,791(七千九百万对),关系(属性)数436,961(四十三万)。有关《大词林》的功能介绍及详细的接口说明请联系mliu@ir.hit.edu.cn

 

4 开源协议

《大词林》(http://101.200.120.155/)是由哈尔滨工业大学社会计算与信息检索研究中心推出,由我中心秦兵教授和刘铭副教授主持开发,是一个自动构建的大规模开放域中文知识库。本次开源是《大词林》中的75万核心实体和核心实体对应的1.8万细粒度概念词表,其中核心实体涵盖了包括常见的人名、地名、物品名等术语,概念词列表则包含了细粒度的实体概念信息。同时开源的还包括由实体和概念形成的上下位关系列表(300万)和实体对应的关系三元组列表(300万)。本批数据面向国内外大学、中科院各研究所以及个人研究者开放,上述开放资源可免费用于学术研究,如要商用,需付费购买。如需完整版数据或咨询购买事宜请向mliu@ir.hit.edu.cn咨询。如果您在《大词林》开源数据基础上发表论文或取得科研成果,请您在发表论文和申报成果时声明“使用了哈工大社会计算与信息检索研究中心研制的《大词林》”,同时发信给 mliu@ir.hit.edu.cn,说明发表论文或申报成果的题目、出处等。

 

5 作者介绍

张裕舟 哈尔滨工业大学社会计算与信息检索研究中心 yzzhang@ir.hit.edu.cn

佘琪星 哈尔滨工业大学社会计算与信息检索研究中心 qxshe@ir.hit.edu.cn

王必聪 哈尔滨工业大学社会计算与信息检索研究中心 bcwang@ir.hit.edu.cn

刘铭   哈尔滨工业大学社会计算与信息检索研究中心 mliu@ir.hit.edu.cn

秦兵   哈尔滨工业大学社会计算与信息检索研究中心 bqin@ir.hit.edu.cn

刘挺   哈尔滨工业大学社会计算与信息检索研究中心 tlu72@ir.hit.edu.cn


点击阅读原文,下载《大词林》数据。



 

OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。


登录查看更多
7

相关内容

《大词林》是由哈工大于2014年末发布的,是一种自动从网络中爬取实体及实体的概念以形成基于上下位关系的通用知识图谱。 《大词林》是一个开放域命名实体知识库自动构建系统,系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别,并从Apriori关联项、后缀上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次化关系。 官方地址:www.bigcilin.com
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
143+阅读 · 2020年7月6日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
86+阅读 · 2020年5月2日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
189+阅读 · 2020年1月17日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
Github六个知识图谱实战项目推荐
专知
382+阅读 · 2019年6月2日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
技术动态 | 大规模中文概念图谱CN-Probase正式发布
开放知识图谱
7+阅读 · 2017年11月19日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
科普 | 典型的知识库/链接数据/知识图谱项目
开放知识图谱
15+阅读 · 2017年10月13日
项目实战:如何构建知识图谱
PaperWeekly
30+阅读 · 2017年9月14日
Arxiv
29+阅读 · 2020年3月16日
Arxiv
101+阅读 · 2020年3月4日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
7+阅读 · 2018年3月22日
VIP会员
相关VIP内容
【ACL2020】多模态信息抽取,365页ppt
专知会员服务
143+阅读 · 2020年7月6日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
86+阅读 · 2020年5月2日
【SIGMOD2020-腾讯】Web规模本体可扩展构建
专知会员服务
29+阅读 · 2020年4月12日
【斯坦福大学-论文】实体上下文关系路径的知识图谱补全
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
189+阅读 · 2020年1月17日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
相关资讯
Github六个知识图谱实战项目推荐
专知
382+阅读 · 2019年6月2日
论文浅尝 | 知识图谱相关实体搜索
开放知识图谱
14+阅读 · 2018年12月18日
徐阿衡 | 知识抽取-实体及关系抽取(一)
开放知识图谱
41+阅读 · 2018年9月18日
技术动态 | 大规模中文概念图谱CN-Probase正式发布
开放知识图谱
7+阅读 · 2017年11月19日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
科普 | 典型的知识库/链接数据/知识图谱项目
开放知识图谱
15+阅读 · 2017年10月13日
项目实战:如何构建知识图谱
PaperWeekly
30+阅读 · 2017年9月14日
Top
微信扫码咨询专知VIP会员