刘志明 | 知识图谱及金融相关

2017 年 12 月 18 日 开放知识图谱 刘志明-Jimmy

本文转载自公众号：挖地兔，本文的作者刘志明先生也是 Tushare 的作者。

Tushare 是一个基于 Python 语言的免费、开源的财经数据接口包，可以为金融量化分析人员提供快速、整洁和多样的结构化数据，帮助量化投资人员节省数据采集和清洗时间，使他们有更多的精力集中在策略的研发上，极大提高投研效率。作为国内最早一个服务于量化投资的 Python 开源项目，目前用户超过 10 万，机构 300 家，已经成为量化投资领域比较常用或者借鉴的数据工具。

前言

早在2010年的时候，我作为Oracle中国公司的实施方的项目负责人，给江苏省国税局做了一个项目——江苏国税智能问答系统。这个系统借助 Oracle OPA 产品，实现了税务方面的智能问答。通过税务局预设的相关问题，用户根据企业自身实际情况选择或输入数据，实现互动式精准问答。比如说，用户想知道自己公司是否可以享受福利企业税收优惠政策，企业根据自身的情况，输入相关数据，系统依据用户反馈的数据经过条件判断和计算给出不同的路径，最终引导用户得到需要的答案。

虽然这个系统当时只是通过预先设定的流程反馈结果，但当时我理解这是一个税务知识以及税务政策法规的总结和知识的交互呈现，通过XML技术，把税务知识结构化、语义化，让机器能快速对用户的问题作出反馈。在当时人工智能、NLP没有多少人提及的时候，我们姑且把这种模式当做是一种“智能系统”，放到今天来看，我个人把这种系统归纳为“知识图谱”的一种应用。

由此，引出了一个概念——“知识图谱”。到底什么是知识图谱？可能很多朋友都不太清楚，这也是写作本文的目的，给大家科普一下知识图谱的概念，希望能给需要了解或有兴趣了解的朋友带来一些帮助。

什么是知识图谱？

直接了当的说，知识图谱是人工智能技术的重要组成部分，它是具有语义处理与信息互联互通能力的知识库。通常在智能搜索、机器人聊天、智能问答以及智能推荐方面有着广泛的应用。

今天我们学习和探讨的知识图谱，实际是Google公司在2012年提出的为了提高搜索引擎能力，增强用户的搜索效率效果以及搜索体验的一种技术实践。

而在10年前，就已经提出了语义网的概念，呼吁业界推广并完善利用本体（Ontology）模型来形式化表达数据中的隐含语义，便于知识的高效呈现和利用。知识图谱技术的出现正是基于以上相关研究，是对语义网相关技术和标准的提升。

知识图谱中的一些概念要素：

实体：是指具有可区别性且独立存在的某种事物(有点像面向对象编程里的Object)。如某一种动物、某一个城市、某一种水果、某一类商品等等。世界万物有具体事物组成，此指实体。实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。

语义类（概念）：概念主要指集合、类别、对象类型、事物的种类，例如人物、地理等。

属性：主要指对象可能具有的属性、特征、特性、特点以及参数，例如国籍、生日等。

属性值：主要指对象指定属性的值，例如国籍对应的“中国”、生日对应1988-09-08等。每个属性-属性值对可用来刻画实体的内在特性。

关系：用来连接两个实体，刻画它们之间的关联。形式化为一个函数，它把kk个点映射到一个布尔值。在知识图谱上，关系则是一个把kk个图节点(实体、语义类、属性值)映射到布尔值的函数。

知识图谱中一般用三元组的方式来表达，三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。每个实体可用一个全局唯一确定的ID来标识，每个属性-属性值对可用来刻画实体的内在特性。

下图是一个以上概念和关系形象展示，帮助理解知识图谱的内容。

知识图谱在金融数据中的体现

从智能金融或者智能投研的角度来看，米哥认为，最常见是从上市公司、高管、产业、行业的角度将知识关联化和结构化，让每一类数据不再仅仅是数据（数字），而是具有可联系、可追溯、可扩展的图谱，将背后隐藏的逻辑关系快速呈现出来。

企业知识图谱

我们看一家公司的时候，尤其是针对一家上市公司，总会希望了解这家公司的股权关系，股东结构，希望通过了解该公司的控股股东及其背后的投资关系，了解该企业及法人对外投资的情况，获得该公司的风险要素。

也希望通过了解该公司的主营业务构成、产品生产和销售情况，了解该公司未来的发展潜力；同时，也会关注公司获得了那些专利技术、参与了哪些招投标项目，涉及了那些司法诉讼等等。这些基本要素就构成了一家公司或者一个集团的简单知识图谱，通过图形化的方法，利用酷炫的可视化效果呈现出来，达到快速了解和分析某一公司的目的。

我从网上搜索了一些可视化效果，给予大家直观的感受。