史上最大规模:这有一份1.4亿的中文开源知识图谱

2019 年 10 月 17 日 机器之心

机器之心整理

参与:郑丽慧、杜伟

知识图谱是人工智能新时代的产物,简单地说知识图谱就是通过关联关系将知识组成网状的结构,然后我们的人工智能可以通过这个图谱来认识其代表的这一个现实事件,这个事件可以是现实,也可以是虚构的。

近日,一直致力于知识图谱研究的 OwnThink 平台在 Github 上开源了史上最大规模 1.4 亿中文知识图谱,其中数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用 csv 格式。


到目前为止,OwnThink 项目开放了对话机器人、知识图谱、语义理解、自然语言处理工具。知识图谱融合了两千五百多万的实体,拥有亿级别的实体属性关系,机器人采用了基于知识图谱的语义感知与理解,致力于最强认知大脑。自然语言处理工具包的功能有:中文分词、词性标注、命名实体识别、关键词提取、文本摘要、新词发现、情感分析等。


  • Github 地址:https://github.com/ownthink/KnowledgeGraphData

  • ownthink 网站地址:https://www.ownthink.com/


那么 OwnThink 知识图谱的具体演示是怎样的呢?


本次 ownthink 开源的中文知识图谱,数据是以(实体、属性、值),(实体、关系、实体)混合的形式组织,数据格式采用 csv 格式。


知识图谱演示


在 OwnThink 平台首页上滚动着各种关键词,用户也可输入自己想要查询的知识,然后就可以得出相应的知识图谱。

用户输入关键词即可得出相应的知识图谱。


我们以「姚明」为关键词搜索相应的知识图谱,可以得到出生日期、队友路易斯·斯科拉、毕业院校等相关信息。


然后,我们点击上图中姚明的各个标签,则又会出现这些标签的知识图谱,如点击路易斯·斯科拉,又会得到他的相关信息:


如此循环,点击上图中路易斯·斯科拉的各个标签,则又会出现这些标签的相关信息,这里就不一一展示了。


对话机器人


OwnThink 知识图谱还可以应用于机器人问答系统、知识推荐等等。下图为知识图谱在机器人上的应用。

基于知识图谱的对话机器人系统。


数据下载方式:


  • 百度网盘链接: https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 

  • 提取码: 3hpp

  • 注:解压密码是 ownthink

  • 首页地址:https://www.ownthink.com/


使用与安装


按照上面的下载地址,拿到文件并解压后查看知识图谱规模:


$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

查看知识图谱数据:


$ head ownthink_v2.csv
实体,属性,值
胶饴,描述,别名: 饴糖、畅糖、畅、软糖。
词条,描述,词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。
词条,标签,文化
红色食品,描述,红色食品是指食品为红色、橙红色或棕红色的食品。
红色食品,中文名,红色食品
红色食品,是否含防腐剂,否
红色食品,主要食用功效,预防感冒,缓解疲劳
红色食品,适宜人群,全部人群
红色食品,用途,增强表皮细胞再生和防止皮肤衰老

使用 python 进行读取测试:


import sysimport csv
with open('ownthink_v2.csv''r', encoding='utf8'as fin:
  reader = csv.reader(fin)
  for index, read in enumerate(reader):
    print(read)

    if index > 10:
      sys.exit(0)

运行以上脚本输出结果:


['实体''属性''值']
['胶饴''描述''别名: 饴糖、畅糖、畅、软糖。']
['词条''描述''词条(拼音:cí tiáo)也叫词目,是辞书学用语,指收列的词语及其释文。']
['词条''标签''文化']
['红色食品''描述''红色食品是指食品为红色、橙红色或棕红色的食品。']
['红色食品''中文名''红色食品']
['红色食品''是否含防腐剂''否']
['红色食品''主要食用功效''预防感冒,缓解疲劳']
['红色食品''适宜人群''全部人群']
['红色食品''用途''增强表皮细胞再生和防止皮肤衰老']
['红色食品''标签''非科学']
['红色食品''标签''生活']



文为机器之心整理,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
登录查看更多
3

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【天津大学】知识图谱划分算法研究综述
专知会员服务
106+阅读 · 2020年4月27日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
医疗知识图谱构建与应用
专知会员服务
383+阅读 · 2019年9月25日
史上最大规模1.4亿中文知识图谱开源下载
专知
39+阅读 · 2019年10月14日
万字长文| 中文知识图谱构建技术以及应用的综述
中国人工智能学会
69+阅读 · 2019年9月9日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
Github六个知识图谱实战项目推荐
专知
382+阅读 · 2019年6月2日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
漆桂林 | 知识图谱的应用
机器学习研究会
12+阅读 · 2017年9月26日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
31+阅读 · 2017年9月15日
知识图谱之语义网络篇
炼数成金订阅号
7+阅读 · 2017年8月16日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
8+阅读 · 2019年3月28日
Bidirectional Attention for SQL Generation
Arxiv
4+阅读 · 2018年6月21日
VIP会员
相关VIP内容
【天津大学】知识图谱划分算法研究综述
专知会员服务
106+阅读 · 2020年4月27日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
知识图谱本体结构构建论文合集
专知会员服务
106+阅读 · 2019年10月9日
医疗知识图谱构建与应用
专知会员服务
383+阅读 · 2019年9月25日
相关资讯
史上最大规模1.4亿中文知识图谱开源下载
专知
39+阅读 · 2019年10月14日
万字长文| 中文知识图谱构建技术以及应用的综述
中国人工智能学会
69+阅读 · 2019年9月9日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
Github六个知识图谱实战项目推荐
专知
382+阅读 · 2019年6月2日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
刘挺 | 从知识图谱到事理图谱
开放知识图谱
48+阅读 · 2017年11月16日
漆桂林 | 知识图谱的应用
机器学习研究会
12+阅读 · 2017年9月26日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
31+阅读 · 2017年9月15日
知识图谱之语义网络篇
炼数成金订阅号
7+阅读 · 2017年8月16日
Top
微信扫码咨询专知VIP会员