随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,这些数据不仅为分析关系提供了有效原料,更为人工智能的飞速发展带来了前所未有的数据红利。知识图谱因此应运而生,成为近些年来的热点技术。
知识图谱(KnowledgeGraph/Vault)又称为科学知识图谱,是由Google公司在2012年提出来的一个新的概念。
基于谷歌知识图谱的架构,可以知识图谱大致可以理解为一个语义网,是与知识库的密切关联、但又有明显差异的一个技术栈(Technology Stack),在谷歌的设计理念中,知识图谱的目标是解决信息过载问题。
谷歌知识图谱架构
是不是觉得有点抽象?那我们换个角度,从实际应用的角度出发其实可以简单地把知识图谱理解成多关系图(Multi-relational Graph)。
知识图谱就是把所有不同种类的信息(Heterogeneous Information)通过数据挖掘、信息处理、知识计量和图形绘制等一系列方式,连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱应用的前提是已经构建好了知识图谱,也可以把它认为是一个知识库。这也是为什么它可以用来回答一些搜索相关问题的原因,比如在百度搜索引擎里输入“鹿晗的女朋友?”,我们直接可以得到答案-“关晓彤”。
这是因为我们在系统层面上已经创建好了一个包含“鹿晗”和“关晓彤”的实体以及他俩之间关系的知识库。
所以,当我们执行搜索的时候,就可以通过关键词提取("鹿晗", "关晓彤", "女朋友")以及知识库上的匹配可以直接获得最终的答案。
这种搜索方式跟传统的搜索引擎是不一样的,一个传统的搜索引擎它返回的是网页、而不是最终的答案,所以就多了一层用户自己筛选并过滤信息的过程。
在现实世界中,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。当一个知识图谱拥有属性时,我们可以用属性图(Property Graph)来表示。
下面的图表示一个简单的属性图。刘二和刘强是父子关系,并且刘二拥有一个159开头的电话号,这个电话号开通时间是2018年,其中2018年就可以作为关系的属性。
类似的,刘二本人也带有一些属性值比如年龄为35岁、职位是个体经营者等。
构建知识图谱是一个迭代更新的过程,根据知识获取的逻辑,每一轮迭代包含三个阶段:
信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;
知识加工(计算+应用):对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。
知识图谱架构分析图
知识图谱技术为不同的商业场景带来了大量的智能应用和成功案例,上面所提到的用于搜索引擎(国外的搜索引擎以谷歌的 Google Search、微软的 Bing Search]最为典型;国内的主流搜索引擎公司如百度、搜狗等)的例子只是冰山一角,接下来就和小编一起看看知识图谱的其他应用吧!
通过知识图谱相关技术从招股书、年报、公司公告、券商研究报告、新闻等半结构化表格和非结构化文本数据中批量自动抽取公司的股东、子公司、供应商、客户、合作伙伴、竞争对手等信息,构建出公司的知识图谱。
在某个宏观经济事件或者企业相关事件发生的时候,券商分析师、交易员、基金公司基金经理等投资研究人员可以通过此图谱做更深层次的分析和更好的投资决策。
比如在美国限制向中兴通讯出口的消息发布之后,如果我们有中兴通讯的客户供应商、合作伙伴以及竞争对手的关系图谱,就能在中兴通讯停牌的情况下快速地筛选出受影响的国际国内上市公司从而挖掘投资机会或者进行投资组合风险控制。
知识图谱技术可以帮助我们快速构建一个法律知识图谱,目前还缺乏法律知识图谱的理论工作。
跟其他领域的知识图谱相比,法律知识图谱需要考虑法律的逻辑,下面就是一个法律知识图谱的片段:
从上面这个例子可以看出,每一个犯罪行为都有主体、客体、主观要件和客观要件,我们就需要从文本中去抽取这些信息,从而形成一个关于犯罪行为的图谱。
而通过对海量判决书的挖掘,可以建立犯罪行为之间的关联,比如说,防卫过当和故意伤害之间有一个关联,即误判为的关系。
通过这个图谱,给定一个判决书,可以辅助法官判的一个案件是否有误判,是否需要补充信息。
通过融合来自不同数据源的信息构成知识图谱,同时引入领域专家建立业务专家规则。我们通过数据不一致性检测,利用绘制出的知识图谱可以识别潜在的欺诈风险。
比如借款人张 xx 和借款人吴 x 填写信息为同事,但是两个人填写的公司名却不一样, 以及同一个电话号码属于两个借款人,这些不一致性很可能有欺诈行为。
反欺诈情报分析
如教育科研,医疗,生物医疗以及需要进行大数据分析的一些行业。这些行业对整合性和关联性的资源需求迫切,知识图谱可以为其提供更加精确规范的行业数据以及丰富的表达,帮助用户更加便捷地获取行业知识。
知识图谱的行业应用
知识图谱是一个既充满挑战而且非常有趣的领域。相信在未来几年时间内,知识图谱毫无疑问将是人工智能的前沿研究问题。
知识图谱的重要性不仅在于它是一个全局知识库,更是支撑智能搜索和深度问答等智能应用的基础,而且在于它是一把钥匙,能够打开人类的知识宝库,为许多相关学科领域开启新的发展机会。
从这个意义上来看,知识图谱不仅是一项技术,更是一项战略资产。
今天,小编也特地为大家准备了相应的播客内容——“知识图谱在企业中的落地”,让我们同大咖专家一起,揭秘更多知识图谱的隐藏“奥秘”吧!