分享嘉宾:肖楠 京东科技 算法专家 编辑整理:付村 云融创新 出品平台:DataFunTalk
**导读:**今天分享京东科技近期在事理图谱构建和应用方面的研究成果,主要分为以下五个部分:
01
京东科技图谱简介
1. 京东科技知识图谱能力全景图
京东科技的知识图谱能力由五个部分构成,包括:多源异构数据、基础技术、核心能力、图谱平台、图谱应用。 其中,多源异构数据包括结构化数据、半结构化数据和非结构化数据。基础技术覆盖了NLP以及知识图谱等各领域的技术。核心能力概括为信息抽取技术、文本解析技术以及图存储和图可视化技术等。图谱平台产品的应用领域覆盖了金融领域、电商领域、医疗领域,支持了京东科技、京东商城、京东健康等模块的核心业务。除此之外,在搜索推荐、资管科技、智能客服及采销等场景都有很好的落地。今天的分享主要聚焦在金融图谱。
2. 京东科技知识图谱全景图
上图为金融图谱的全景图。
数据层面
主要包含企业工商数据、研报、新闻和公告。研报分为上市公司研报、行业研报、期货研报和基金研报;公告分为上市公司公告、发债主体公告和基金公告;新闻分为行业新闻和金融新闻。从数据可信度和数据质量来看,企业工商数据、研报、公告的数据比较可靠,由于所在网站规范性、新闻发布时间和撰写人员等原因,新闻的可信度相对较低。所以,新闻数据在数据获取后录入图时,我们会进行机器校验和人工校验。 * 金融图谱
实体主要包括公司、人员、产品和指标;关系主要包括供应链、供应商、子公司、参股、客户、董监高、业务、指标八类关系;节点共计2亿多。金融图谱构建时,主要使用NER、关系抽取、实体抽取、指标抽取等几个核心模型。
事理图谱
共有100万多节点,覆盖了45个产业链的行业知识,主要应用事件抽取、事理抽取、事理对齐、论元抽取四类模型进行构建。其中,事理抽取和事理对齐是本次分享的核心内容。
02
金融事理图谱构建
1. 事理图谱简介
在金融领域,文本中存在大量的金融行业知识,有效的获取和使用这些知识可以极大提升AI能力在金融领域的应用,且具有极大的商业价值。
① 事理图谱定义
事理图谱是由事理节点和因果关系组成的有向图。事理节点有别于知识图谱,一般是由短语或一组语义实体构成,事理可以认为是对事件的抽象归纳,它将事件映射为网络(见上图右的演示)。
② 事理和事件的区别
先来看个例子,这是一个产品发布的事件:“西部时间9月12日上午10点,苹果发布Apple TV在史蒂夫.乔布斯剧院”,事件抽取包括触发词的发现和事件元素的发现,事件元素包括:发布方、发布时间、发布地点、被发布的产品。 从上述例子可以发现,对于不同的事件,需要用不同的事件schema来描述,因为数据标注成本巨大,即便已经定义了84类事件,但仍然无法扩展至覆盖整个行业。我们引入了事理基于语义的schema,它可以用简单的表述方式或用统一的schema来表述事理,这种方式降低了事理表述的难度。
③ 事理的获取流程
上图中右半部分,展示了事理获取的整个流程:首先将文本进行结构化,构建成事件网络,在网络中找到核心的事件节点,进行抽象归纳,映射成抽象的事理节点。
2. 事理图谱构建示例
事理图谱的构建主要分为因果关系抽取、论元抽取、事理对齐三个部分。下面以石油产业链的为例,来说明如何获取一条事理。 原句:由于国际上的原油市场需求下降,10月原油价格大幅下滑,导致石油开采、石油加工产业价格回落。
① 因果关系抽取
原句蕴含着一个事理,它由两个因果关系组成,通过因果关系抽取,得到了两条因果对,结果见上图表格所示。 这两组因果关系中,蕴含了石油产业的行业知识,展示了石油上游原料价格与下游产业价格的传导关系。
② 论元抽取
将因果对分别按照主体、谓词、及对主体的修饰词进行论元元素抽取,将上述的因果对解析为结构化信息,如上图所示。
③ 事理对齐
将事件映射成对齐事理,进一步得到石油产业链知识,如上图所示。这条知识经过机器校验和人工校验,录入到事理图谱中,可以应用到推理、价格定价等方面。 这个例子展示了知识抽取的过程,是通过路径搜索进行知识推理的一种形式。拓展了图中的因果知识,用路径的结构加以实现。接下来将三个步骤分别展开介绍。
03
因果关系抽取技术
1. 因果关系抽取概述
① 因果关系抽取的挑战
因果关系抽取的问题和挑战主要有: * 因果关系存在显示和隐式两种,隐式关系抽取难度大。 * 因果词不只是因果连词,还有其他多种可能,比如助词、介词、形容词、名次等,这增加了因果识别的难度。 * 因果对存在嵌套情况。
下面举例解释以上挑战难点(可参照上图右半部分): * 隐式因果关系:“俄乌战争爆发,石油价格上涨。” * 动词为因果词:“俄乌战争带动石油价格上涨。” * 非因果句,导致误抽取(这种样本进入到模型中,会降低模型效果): “俄乌战争爆发,石油交易仍然正常进行。”
② 因果关系抽取 vs SPO抽取
相同点:二者都是三元组抽取任务;三元组出现在句中的情况相同。 不同点:SPO由实体组成,因果关系由短语或短句组成;因果抽取分为隐式关系和显示关系,而SPO抽取不做任何区分,在实际应用中,以SPO抽取大部分是显性。
③ 因果关系抽取类型
因果关系抽取大致分为三类:单句单组因果;单句多组因果关系且因果元素不重合;单句多组因果关系且且因果元素嵌套。相关示例见上图右下部分。
2. 因果关系抽取模型
因果抽取模型借鉴了事件抽取模型,事件抽取模型是由触发词和事件元素组成,用这种方法解决了前面提到的问题与挑战。大量实验证明使用文本处理隐式关系存在许多误抽取,接下来的模型建设暂时不考虑隐式关系的处理。
上图右侧展示了因果抽取模型的整体框架。模型分为两个任务:
预测因果连接词; * 预测因果连接词对应的原因和结果。原因和结果不是唯一的,原因可以多组,结果也可以多组。
重点介绍模型中京东科技进行的两处优化: * 我们设计了新的任务来提升预训练的表示。首先预测一个句子是否是因果句,判断后得到的embedding作为下游任务的补充。通过这种训练方式,可以对整个训练任务提升1个点至2个点。 * 我们使用了GCN编码代替传统的CN编码等方式。之所以选择GCN编码是因为GCN对句子特征的传导和过滤有更好的效果。使用GCN编码,构建图时,我们尝试了多种方式,比如句法遗存、TFIDF、词频等,实验对比发现句法遗存的效果最好,针对句法遗存产生的噪声,我们在GCN编码矩阵的每一条边上设置门控机制,通过门控机制判断该条边是否起作用。使用GCN编码进行事件抽取,可以对整个训练任务提升5个点。
总结起来,通过设置了联合抽取任务解决了因果关系抽取问题,主要用于显示的因果抽取。
04
事理对齐技术
1. 论元抽取定义
① 语义角色标注
语义角色标注是浅层的语义分析技术,以句子为单位,分析句子的谓词和论元结构。语义角色框架主要有PropBank-style annotation、FrameNet-style annotation、NomBank三个,其中使用最多的是PropBank-style annotation,它常用的数据集是Propbank、Chinest Proposition Bank、CoNLL三个。 京东科技主要使用的是Chinest Proposition Bank,它分为三个主要成分:Predict,谓词作为整个句子的核心词;Core Argument,核心论元是围绕着谓词的主体、客体或间接宾语,主要修饰谓词;Semantic Adjuncts,对谓词、核心元素的补充,比如时间、地点、目的、原因等。
② 论元的定义
论元为语义角色标注中的标签 * 论元抽取任务实际是语义角色标注任务
我们在使用论元时,参考的是CPB框架,并在此基础上进行了修改。SRL将相同语义不同表达的句子转为统一表达形式,在论元抽取中有重要作用。
2. 论元抽取方案
① 方案选择
我们做事理对齐时,考虑了两种方案: 一是用文本相似度的方法,因为事理是图结构的,但抽取的因果对大部分是短语,经过实验发现效果并不是特别好,原因在于短文本的特征比较有限。 所以提出了第二种方法:文本和图相结合来做映射的方法,也就是将短语和事理分别展示成子图的方式,进一步对节点进行如引入概念、词表等的再处理,提升实体携带的信息量和表征纬度。从图的结构层面,采用图谱对齐的方案,把潜在的子图进行对齐。 两种方法对比,方案二的效果较好。把短文本相似计算的问题转换为图谱对齐任务。首先是丰富了输入特征,引入了图的结构信息,丰富了实体的信息,运用知识库对实体进行了扩充。其次是处理对齐的方法,使用图结构的对齐,这相对于文本计算有明显优势。 ② 对齐任务
上图右边三个方框中,左边两个是抽取的待对齐的因果对,右边是事理图谱中的一个事理。经过论元抽取处理,将短语结构化为子图,以左边上图为例进行解读:根节点是下降,下降的主体是需求,需求的范围描述——国际上,其他描述——原油市场,下图及事理图可以用同样方法解读。 接下来进行对齐和映射。上面子图的“国际上”节点是不需要的,将其排除在外,“下降”和“下滑”对齐,“需求”和“需求”对齐,“原油市场”和“原油”对齐,见图中黄色虚线示意。下面子图同样,排除“2008年”节点,“暴跌”和“下滑”对齐(通过同义词或概念词的方法进行的对齐),“需求”和“需求”对齐,“原油”和“原油”对齐,见图中绿色虚线示意。 对齐任务的核心思想是将短文本转换成图的信息。 ③ 论元元素介绍
论元的元素
与语义角色标注部分CPB相同,这里不再展开。 * 非核心语义角色
原本语义角色很复杂,可以处理复杂句或多句的关系,经过很多实验,我们选择只保留了9类关系,因为在事理中这9类已经可以描述出事物的发展情况。 第一类是ArgM-Loc,描述物理空间元素。 第二类是ArgM-Sco,认知或概念的范围空间。 第三类是ArgM-Time,时间元素。 第四类是ArgM-Tool,工具元素,一般由“用”整个词引出。 第五类是ArgM-Mnr,事件的方式、方法。 第六类是ArgM-Reas,缘由元素。 第五类是ArgM-Purpose,目的元素。 第五类是ArgM-Polarity,极性元素,表示否定意义的词。 第五类是ArgM-Tense,时态元素,包括过去、现在和未来时。 3. 论元抽取方法
论元抽取应用的是关系抽取的框架,主要分为Pipeline版本和联合抽取版本两种。 ① Pipeline版本
该版本是论元实体和语义关系抽取独立进行。 * 优势介绍
(a)便于针对各自任务的问题设计模型,没有共享编码的限制。 (b)减少因下游任务不一致导致的预训练模型的性能损失。 (c)显式的将上游任务的记过作为标记,用于提升下游任务的效果。 * 通用方法介绍
(a)实体论元发现,采用Spild结构,对所有的窗口进行扫描,是牺牲算力提升模型精度的一种方式。 (b)关系发现,对关系进行两两全匹配,并进行关系的预测。 ② 联合抽取版本
将两个任务结合在一起,使用共享编码,是多任务的训练。在应用中需要根据任务难度、数据量不匹配程度等影响迭代收敛效果的内容调整多任务的执行策略。 * 方法介绍
(a)标注框架,将关系和实体设计成统一的标注框架,它的局限是单个词只能打一个标签,对于嵌套问题比较局限。 (b)联合编码,将句子长度*句子长度作为一个向量,把所有情况进行建模,建模中会将所有的关系和实体在句子特征中进行表征。在基本保证模型效果的情况下,降低运算强度。 总结起来,论元抽取时,需要根据句子的情况选择不同的方案。 4. 事理对齐
考虑到数据计算量大小,将事理对齐分三步进行。 首先,基于规则进行初步召回,一般是数据量大于10(50左右)时应用,主要使用规则、词匹配进行召回。 第二步,基于文本的粗排,主要使用文本相似度计算的方法进行再召回,目标是将候选集降低到10个以内。 最后,使用图谱对齐的精排模型,对5个元素以内的每个节点进行计算,得到相似度,进一步进行排序。 5. 事理精排模型
事理精排模型,主要使用了因果句和事理子图中句子的文本信息以及子图中每个节点临近节点的信息。 将图中的每个节点用Bert进行编码,形成关于一度节点的关系矩阵和文本特征向量。通过操作算子将关系矩阵中可能有用的特征抽取出来,经过MLP网络计算损失。 该模型在公司实体链接中应用过,效果也非常不错。 6. 事理对齐总结
事理对齐模型的核心思想是引入图结构,用论元的方法将短文本任务转为图结构,通过图的方式进行事理对齐。 05
事理图谱在金融领域的应用
1. 应用概述
① 金融领域数据的特点
渠道来源多(新闻、财报、研报)、信息庞杂。 * 企业、人员、产品等关系负责、数据量大。 * 具有一定专业性,数据标注成本高。
② 事理图谱的价值
通过路径搜索丰富推理知识,可以为舆情系统提供多维度的连接关系。 * 通过产业知识的构建,可以为智能投研系统自动发现投资逻辑。 * 通过事理链接和因果分析,可以为金融预测模型提供丰富的潜在特征,场景例如价格预测等。
2. 事理图谱在智慧研报的应用
应用事理图谱,对一份研报的资讯内容进行正负面的抽取、事件的抽取、事理方面会做延伸文章的推导,从而进行一度或二度关系文章的推荐。 3. 事理图谱在行业龙头推荐的应用
通过产业链图谱和事理图谱的方式,根据每个节点的出度、入度对公司的权重进行计算。因为政策的传导对产业链龙头影响很大,事理图谱在其中的作用便是增加行业在计算中的权重信息,提高龙头推荐的精度。 06
总结与展望
****
1. 总结
事理对齐同样可运用到短文本理解场景
这是因为事理对齐主要将短文本信息用图的方式进行对齐,在图中的每个节点上引入了更多信息。 * 事理图谱增强知识图谱的认知能力,存储事物规律 * 事理图谱提升新闻舆情场景、定价场景、智能投研场景的智能程度
2. 展望
探索隐式因果关系的处理
本文介绍的因果关系抽取和事理对齐技术主要是针对显式因果关系的处理,关于隐式关系的探索不足,也造成了一定程度的知识缺失。 * 事理知识大规模自动发现
从量级看,目前的数据量100万左右,节点有两亿多,随着数据的积累和收集,数据量会更大。 * 增加事理表征难度
目前的事理大部分以论元表示,在实际中(尤其投资决策方面),有时精准度会稍显不足。比如有些因果关系的成立是有因果前提的,现在大部分是对核心元素的谓词关系建模,有些信息(比如条件等)未引入进来,造成表征不够丰富。 07
Q&A
Q:带条件的事理如何表达? A:首先,可以在论元角色上进行更多建模,但是条件不是简单的一个词或短语,它还可能是更复杂的一种表达,有时条件本身就构成了一个图,造成构建时的复杂度大大提升,不能通过简单再引入一套条件的schema解决。比如白条、金条还款时,都是在固定的条件下发生的,这时会发现条件相对复杂,没办法简单具化为一个schema。 建议具体处理时,先控制范围,可以先从简单(条件也是分为几个层次的)的入手,比如时间、地域等条件的表达,其他复杂结构的条件处理优先级排后。 Q:论元抽取时的人工校验工作,大概占多大比重? A:需要根据具体的业务场景决定需要投入的人力,比如舆情场景,人工校验采用抽查的方式即可;在数据或数据运算场景,需要全量校验。 Q:金融事理图谱方案是否可以迁移到其他领域(比如娱乐等)应用?如果可以,有哪些注意事项? A:事理图谱的方案是通用的,它的实现只跟数据源有关,论元、抽取和领域无关,在各领域具有通用性。 今天的分享就到这里,谢谢大家。
分享嘉宾: