万物互联:从语义网到知识图谱
早在60年代,学术界和工业界便开始语义网(Semantic Network)的研究,到了90年代,Tim Berners Lee提出Semantic Web的概念,业界开始意识到语义网内涵的巨大价值。直到2012年,谷歌启动“Knowledge Graph”项目,才使得语义网技术真正为大众所知。它试图将搜索结果进行知识系统化,以建立更智能的搜索引擎。
广义的知识图谱是研究万物及其之间的联系。而其最常用的表现方式是三元组,在属性图网络中则表现成“点-边-点“的结构。这里的节点可以是实物,如一家公司、一个产品;可以是一个抽象概念,如营收、销量;也可以是一个属性值。将各个节点之间的关系以边的形式赋予,便形成了一张知识图谱。
以行业研究知识图谱为例,“产品”、“公司”被认为是两个“节点”,“生产”就是“边”,可以认为“边”描述了两个“节点”之间的关系。
图1:行业知识图谱示意图
金融知识图谱的四大特征
金融领域存在着各类不同的知识图谱,它们多与公司及行业基本面相关。这些知识图谱涵盖了公司的股权、债务、主营业务、产业链等不同领域。和传统的知识图谱(如中国-首都-北京)相比,金融领域的知识图谱有如下几个特点:
(1)结点间有动态性。公司的股权、债务关系一直都是变动的,这要求不同时间段内节点之间的关系要被记录下来。
(2)边上有权重信息。公司不同股东的占股比例、产品上游不同原材料的比例、不同业务贡献的营收比例等信息,都需要体现在边上,也就是不同节点的关系中。
(3)结点上数据丰富。比如一个记录某款车的销量的结点,其背后是多年来不同时间点上的几百条数据,甚至还要和不同的地区相关联。
(4)知识结构是模糊的。不同于“地球绕太阳”这种完全唯物的客观事实,金融知识图谱里还有很多基于主观认知、推理而搭建的关系结构,这就要求知识图谱可以记录下不同信源下的知识体系。
以平安保险集团的股权关系为例,研究员在数据库中往往只可以得到关于股东的单条信息。但是借助知识图谱,就可以同时获取它的股东及持股比例、高管、子公司及持股比例这几种完全不同的数据类型并且能够动态跟踪股权关系的变化(动态节点)、股权比例(权重)、公司所属的地区及上市板块(丰富性及模糊性)。
图2:中国平安股权关系图谱
因此,和传统的基本面、量化分析结合起来,知识图谱可以为未来的金融分析提供更多的弹药。
知识图谱应用场景:搜索、监控、推理
(1)更高效快速的检索、问答:以资金净流入为例
基于完备的公司股权、债权、业务图谱,可以更快速、以更人性化的交互手段来解决用户的金融知识和金融数据需求。例如当用户询问当日特大单资金的净流入/流通市值最高的前十支股票,知识图谱引擎会分析用户的提问意图,然后遍历图上的数据,通过一定的规则计算返回得到的结果,从而使整个交互更加自由人性化。
(2)更完备的产业链体系:以棉花行业为例
同传统的由研究员整理的单个行业产业链相比,基于知识图谱搭建的产业链利用上市公司的公告及大量研报,同时结合人工梳理的规则,能够更客观全面地覆盖全行业内上中下游、乃至宏观因素的影响。同时,由于每个节点上还挂载有丰富的指标数据,他们能够借助产业链进行一定的定性或者定量推理。
以棉花行业的研究体系为例,棉花上游包括棉花种子的销售,通过棉花种子经营的有关节点,就可以将有关主营业务的公司“节点” 与棉花的供给和需求“节点”链接,从而得到这些公司在产业链中的位置。
图3:棉花行业知识图谱
(3)更快速的舆情监控:以响水爆炸案为例
当知识图谱中的某个节点受到冲击时(例如,负面消息),会通过图网络辐射到其他关联实体。以响水爆炸案为例,通过分析涉及的各类化学产品在图谱中的关联,并结合图谱上的产量数据,能够在第一时间给不具备相关化工背景的投资者推荐到浙江龙盛这样的受益个股。
(4)更个性化的投研:可编辑的定制框架
知识图谱除了能提高投资者对非结构化信息的应用效率,还能改善现有的分析框架。可以结合行业研究员提供的基本面研究框架和参考变量,如价格与供需缺口的关系、库存所包含的指标以及各自公布的滞后期等,然后通过对知识图谱主要概念的提取,搭建出可编辑、可更新、可追溯的个性化投研框架。
我们相信,随着知识图谱赋能金融分析的能力越来越强,其在不同金融子行业中也会根据业务的需求衍生出不一样的结构形态,在未来的金融决策中一定会扮演越来越重要的角色。
-- the end --
优矿是由通联数据出品,覆盖研究、回测、模拟、实盘交易全流程的量化平台。优矿不仅拥有通联海量的金融数据、动态丰富的策略框架,同时还通过知识库信号库提供持续的知识输出,满足用户在研究过程中高效获取、迅速验证、多维度挖掘、多策略并行的迫切需求,为投资决策提供重要支持。
扫二维码,立即预约试用!