图谱实战 | 知识图谱构建的一站式平台gBuilder

2021 年 12 月 23 日 开放知识图谱

OpenKG地址:http://openkg.cn/tool/gbuilder

网站地址:http://gbuilder.gstore.cn




知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现象出现的原因,推理出隐藏在数据之间深层的、隐含的关系,使得知识图谱技术从最初谷歌用来提升搜索引擎的结果来增强用户体验,到现在已经被金融、公安、能源、教育、医疗等领域众多行业进行大量运用。

知识图谱作为大数据和人工智能时代的关键技术已经让越来越多的人意识到它的重要性和价值。知识图谱的应用现在处于“百花齐放”的状态。

知识图谱全生命周期分为构建、存储管理、应用三个阶段。

知识图谱的应用已经受到业内广泛关注,知识图谱的存储管理也有众多解决方案。例如我们前期研发的开源知识图谱图数据库系统gStore(http://www.gstore.cn/pcsite/index.html#/)就是知识图谱存储的工具。gStore在OpenKG上也有介绍 (http://www.openkg.cn/tool/gstore )

然而知识图谱构建却鲜有统一化的平台工具,但是这是知识图谱生命周期的技术难点之一。

这是由于知识图谱构建是一项需要花费大量的人力和时间,却不直接体现价值的工作,但知识图谱构建却是最基础最关键的工作,是解决巧妇难为无米之炊窘境的核心手段。

北京大学王选计算机研究所和大数据分析与应用技术国家工程实验室(北京大学)邹磊教授团队通过两年时间打造了知识图谱自动化构建平台gBuildergBuilder基于机器学习、自然语言处理、图数据库等技术可以实现对结构化数据和非结构化数据的知识抽取,并转化为知识图谱三元组。


Schema设计

无论是结构化项目还是非结构化项目,均需首先设计知识图谱Schema。知识图谱Schema一方面可以描述知识图谱中的实体类型、实体属性和关系等信息,另一方面也是知识图谱查询和分析的重要参考,相当于关系型数据库的表结构。
同现有的Schema设计方法不一样的是,gBuilderSchema设计模块是一个轻量级的Web平台,以图的方式来表述知识图谱Schema,用户可以通过拖拽的方式在画布上设计类、类属性和关系。



结构化数据抽取
对于结构化项目而言,其知识抽取流程设计就是将结构化表及字段,与Schema中的实体类型、属性、关系等进行映射,并形成映射文件。

gBuilder自动化构建平台结构化数据抽取基于D2RQ平台,让用户显式地、可视化地处理结构化数据抽取的所有步骤摆脱复杂的映射语言,易于使用。当前gBuilder能从MySQLOracleSQL ServerPostgreSQL、达梦等关系型数据库中将数据100%准确的映射为RDF三元组数据。


非结构化数据抽取
对于非结构化数据抽取而言是当前知识图谱图谱构建的重难点,例如给下图一段文字,如何将里面的实体以及实体之间的关系准确抽取出来是一个关键问题。当前业内对于非结构数据的自动抽取产品还是较为欠缺。

对于非结构化项目而言,需要通过加载数据集、设计构建流程、开始构建、构建结束步骤。在构建流程中gBuilder通过可视化拖拽的方式来自定义构建非结构化数据知识图谱构建流程。同时gBuilder提供了大量的可选模型,它们有着不同的特性,以及在不同的数据上预训练,用户可以根据需求,挑选出最合适的模型作为构建模型,也可以使用自己的数据训练模型进行图谱构建。构建过程中可以随时使用系统自带的流程检查功能和测试功能来测试流程的正确性与构造效果。完成构建后,可以查看构建的结果,从非结构化数据集中抽取出了构建知识图谱所需要的三元组。

具体抽取流程示例如下,用户首先根据实际业务场景需要通过拖拽算子的方式构建数据抽取流程,然后输入非结构化数据,最后抽取出RDF三元组数据。例如输入“小明是小王的爸爸”测试数据,通过流程的一步步运行,最终抽取出“<小明> <父亲> <小王> ”三元组数据。

gBuilder平台的非结构化数据抽取详细操作如下面动图所示:

最后通过gBuilder抽取的RDF三元组数据同gBuilder团队研发的gStore图数据库系统无缝衔接,再加上该团队研发的面向知识图谱自然语言问答引擎gAnswer,形成了覆盖知识图谱构建、知识图谱存储管理和知识图谱应用的完整生命周期的知识图谱一体化解决方案。

gBuilder整体采用微服务架构,主要模块包括可视化Flowline工具库,数据管理模块,项目管理模块、模型库和任务中心;其中模型库与任务中心等高负载组件采用多云融合方案,为用户提供弹性、实时和可扩展的知识图谱构建服务。

系统框架图

gBuilder具有可视化、易于使用、高扩展、高延伸、灵活性以及支持多种语言(英语、中文)的特性,有力的支撑知识图谱的构建,打破“巧妇难为无米之炊”的窘境。后续gBuilder也将支持更多数据模型的知识图谱构建以丰富知识图谱构建生态和实际业务需要。也期待更多同行者加入我们一起打造和完善图谱生态。




 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
3

相关内容

知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。 知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它能为学科研究提供切实的、有价值的参考。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
146+阅读 · 2021年8月26日
专知会员服务
122+阅读 · 2021年6月12日
专知会员服务
187+阅读 · 2021年3月22日
知识图谱构建技术:分类、调查和未来方向
专知会员服务
107+阅读 · 2021年3月1日
【ISWC2020】如何高效地构建大规模知识图谱?102页ppt
专知会员服务
66+阅读 · 2020年11月7日
企业风险知识图谱的构建及应用
专知会员服务
94+阅读 · 2020年11月6日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
282+阅读 · 2020年10月6日
医疗知识图谱构建与应用
专知会员服务
373+阅读 · 2019年9月25日
图谱实战 | 医学知识图谱的价值与应用场景
开放知识图谱
5+阅读 · 2022年4月6日
百度知识图谱技术及应用
专知
0+阅读 · 2021年3月22日
知识图谱在贝壳找房的从0到1实践
ResysChina
13+阅读 · 2018年9月6日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
56+阅读 · 2018年4月5日
知识图谱实战
炼数成金订阅号
65+阅读 · 2017年12月6日
知识图谱实战新课上线啦!
炼数成金订阅号
22+阅读 · 2017年11月16日
【知识图谱】如何构建知识图谱
产业智能官
134+阅读 · 2017年9月19日
项目实战:如何构建知识图谱
PaperWeekly
29+阅读 · 2017年9月14日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
35+阅读 · 2017年9月12日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月19日
Arxiv
0+阅读 · 2022年4月17日
VIP会员
相关VIP内容
专知会员服务
146+阅读 · 2021年8月26日
专知会员服务
122+阅读 · 2021年6月12日
专知会员服务
187+阅读 · 2021年3月22日
知识图谱构建技术:分类、调查和未来方向
专知会员服务
107+阅读 · 2021年3月1日
【ISWC2020】如何高效地构建大规模知识图谱?102页ppt
专知会员服务
66+阅读 · 2020年11月7日
企业风险知识图谱的构建及应用
专知会员服务
94+阅读 · 2020年11月6日
最新《知识图谱:构建到应用》2020大综述论文,261页pdf
专知会员服务
282+阅读 · 2020年10月6日
医疗知识图谱构建与应用
专知会员服务
373+阅读 · 2019年9月25日
相关资讯
图谱实战 | 医学知识图谱的价值与应用场景
开放知识图谱
5+阅读 · 2022年4月6日
百度知识图谱技术及应用
专知
0+阅读 · 2021年3月22日
知识图谱在贝壳找房的从0到1实践
ResysChina
13+阅读 · 2018年9月6日
【知识图谱】 一个有效的知识图谱是如何构建的?
产业智能官
56+阅读 · 2018年4月5日
知识图谱实战
炼数成金订阅号
65+阅读 · 2017年12月6日
知识图谱实战新课上线啦!
炼数成金订阅号
22+阅读 · 2017年11月16日
【知识图谱】如何构建知识图谱
产业智能官
134+阅读 · 2017年9月19日
项目实战:如何构建知识图谱
PaperWeekly
29+阅读 · 2017年9月14日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
35+阅读 · 2017年9月12日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
26+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员