技术动态 | 大规模中文概念图谱CN-Probase正式发布

2017 年 11 月 19 日 开放知识图谱 知识工场

本文转载自公众号知识工场。


                                                

历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱——CN-Probase,用于帮助机器更好的理解人类语言。概念图谱中包含实体(比如“刘德华”)、概念(比如“演员”),实体与概念之间的类属关系(又称isA关系,比如 “刘德华 isA 演员”),概念与概念之间的 subclass of 关系(比如 “电影演员”是“演员”的子类)。通常后面两类关系,又统称为 isA 关系。如果 A isA B,通常称A为B的下位词(hyponym),或者B为A的上位词(hypernym)。


概念的形成是人类认知从具体进入抽象的第一步。人类通过概念认知世界,概念是人类认知世界的基石。概念是人脑对客观事物本质的反映,是思维活动的结果和产物,是思维活动借以开展的基本单元。比如“恐龙”这一概念让我们能够认知形形色色的恐龙,把握其共性本质,而无需纠缠于不同特定恐龙的细微差别。建立概念分类体系,并为数以千万计的实体建立概念图谱,是我们在让机器具备认知能力的征程中所迈出的至关重要的一步。


人类通过分类结构(Taxonomy)来组织和表示概念。最早可以追溯到亚里士多德时代。随后的几千年来,人类一直在不断完善概念的分类体系,并于近些年涌现了很多分类体系,如Cyc,WordNet等,这些概念分类体系大都由专家手工构建,质量精良,但是构建代价高昂,规模有限。



现在知识工场采用自动的方法,基于CN-DBpedia以及海量中文网页语料等多个数据源,构建了大型中文概念知识图谱——CN-Probase。针对中文语言的特性,采用了全新的抽取策略,达到质和量的全面升级。


CN-Probase是由复旦大学知识工场实验室研发并维护的大规模中文概念图谱,是目前规模最大的开放领域中文概念图谱和概念分类体系,isA关系的准确率在95%以上。相比较于其他概念图谱,CN-Probase具有两个显著优点:

一、规模巨大,基本涵盖常见实体和概念。包含约1700万实体、27万概念和3300万isA关系。

二、严格按照实体进行组织,有利于精准理解实体的概念。例如,“刘德华”这个名字,可能对应很多叫“刘德华”的人,在CN-Probase里搜索“刘德华”,会出现按照典型性排序的很多实体,排在第一个的是大家提及名字都会联想到的歌手“刘德华”。



有了CN-Probase,计算机就能像人类一样具有常识。例如,计算机可以知道鲤鱼和鲨鱼都是鱼,但鲤鱼是一种淡水鱼,而鲨鱼是一种海水鱼。


与此同时,CN-Probase还可以广泛应用于各种场景:


例一:搜索意图理解

用户搜索“西游记”,我们通过它的概念“中国古代四大名著”、“小说”可以理解用户是在搜索小说类名著。对于用户搜索意图的精准理解可以进一步帮助改进检索、排序与推荐。



例二:实体相似性判断

当用户需要判断“复旦大学”和“上海交大”是否相似时,仅仅根据字面相似性,很难知道它们是相似实体。但是通过CN-Probase,我们可以看到它们的概念是差不多的(如下图),从而可以判断它们在语义上是相似的。




例三:可解释实体推荐

当用户先后搜索“复旦大学”、“上海交通大学”,“上海理工大学”时,我们人类可以自然地推断用户是在搜索上海高校。如今,机器通过检索CN-Probase,发现这三个实体共享“上海高校”这个概念,从而也可以准确识别用户的搜索意图,进一步推荐“上海外国语大学”,“同济大学”等实体,并给出用户是在搜索上海高校这一解释。





目前,知识工场提供两种方式访问CN-Probase:

  1. 页面直接访问。进入http://kw.fudan.edu.cn/cnprobase即可访问CN-Probase页面。

  2. API接口访问。我们提供了全套数据访问API,大家可以访问http://kw.fudan.edu.cn/apis/cnprobase/ 查看具体访问方法。


值此发布之际,特向大规模概念图谱的“前辈们”,包括德国马普研究所的Yago、微软亚洲研究院的Probase、微软的概念图谱以及哈尔滨工业大学的大词林,表示崇高的敬意。


点击“阅读原文”查看CN-Probase页面




更多产品试用请点击知识工场网站主页:http://kw.fudan.edu.cn/


合作意向、反馈建议请联系我们:

info.knowledgeworks@gmail.com


或直接联系知识工场负责人肖仰华教授:

shawyh@fudan.edu.cn




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

登录查看更多
7

相关内容

CN:Computer Networks。 Explanation:计算机网络。 Publisher:Elsevier。 SIT: http://dblp.uni-trier.de/db/journals/cn/
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
86+阅读 · 2020年5月2日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
报告 |事理图谱的构建及应用,附61页pdf
专知会员服务
189+阅读 · 2020年1月17日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
知识图谱更新技术研究及其应用,复旦大学硕士论文
专知会员服务
103+阅读 · 2019年11月4日
中文知识图谱构建技术以及应用的综述
专知会员服务
312+阅读 · 2019年10月19日
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
AI人必看!89页全网最全清华知识图谱报告
智东西
32+阅读 · 2019年2月16日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
最全知识图谱综述#1: 概念以及构建技术
机器学习研究会
74+阅读 · 2017年9月28日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
31+阅读 · 2017年9月15日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
3+阅读 · 2019年3月1日
Arxiv
3+阅读 · 2018年10月8日
VIP会员
相关VIP内容
相关资讯
史上最大规模:这有一份1.4亿的中文开源知识图谱
机器之心
25+阅读 · 2019年10月17日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
AI人必看!89页全网最全清华知识图谱报告
智东西
32+阅读 · 2019年2月16日
【知识图谱】医学知识图谱构建技术与研究进展
产业智能官
44+阅读 · 2017年11月16日
【知识图谱】中文知识图谱构建方法研究
产业智能官
99+阅读 · 2017年10月26日
最全知识图谱综述#1: 概念以及构建技术
机器学习研究会
74+阅读 · 2017年9月28日
【推荐】中文通用知识图谱(CN-DBpedia)
机器学习研究会
31+阅读 · 2017年9月15日
Top
微信扫码咨询专知VIP会员