知识提取的一种应用,从上市公司年报中抽取因果关系

2017 年 7 月 7 日 文因互联 王爽、朱衡利

在金融的世界里,信息浩瀚如云海,相信每位金融从业者都有过信息过剩的烦恼,面对着大量的上市公司公告、财报、研报,新闻…,个人精力似乎总是不够。现今信息和数据是如此地高速膨胀,我们似乎需要一种更为高效的信息处理方式。

数据经过挖掘、加工处理之后,就能够成为人们所需要的信息。借助技术的力量,从海量数据中提取有用信息,识别其中蕴藏的模式、规律和相关关系,则是一种人类认识世界的新方式。

例如,在上市公司财报中蕴藏着大量的人工总结,其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉,获取事件的演化关系,有助于预测和决策。而基于这种认识,文因互联的工程师王爽利用NLP技术,对上市公司的年报进行了一次因果关系的抽取的实验。

接下来,就让我们来看看,在一份上市公司的年报中的一个抽取结果项目(下图为代码展示):

  • 【raw_text】表示原始的表示因果关系的句子

  • 【title_path】表示的是句子位于文档中的位置

  • 【financial_term】表示的是财务项目

  • 【trend】表示的是该项目的变化趋势

  • 【amplitude】表示的是该项目的变换幅度

  • 【cause】表示的是该项目的变化原因

通过这样的提取工作,我们能够在短短的几分钟之内就可得知一份厚厚的年报中关键的“因果关系”信息。从实现角度来说,要想提取这些字段,则需要分两步走:

1 找出表示因果关系的句子

计算机当然不会知道我们关心的是哪些句子,而为了让计算机知道我们的想法,则必须告诉他一些特征。因此,首先要人工分析一些年报,找到表示因果关系句子的模式。比方说上图中的例子就是“XXX主要是因为XXX”这种模式,而类似的模式还有很多。在找到所有这些模式之后,计算机就可以对公司年报进行遍历搜索,取出所有符合这些模式的句子。

这中间主要的难点就是模式的松紧程度。如果我们提出的模式比较宽松,那么最终会找出许多不想要的句子;而如果提出的模式比较精细,那么又会丢失掉一些因果句子,准确度和覆盖度不可兼得。在调整了很多轮之后,才算得到一个合适的折中效果。

2 将句子切分为关心的字段

一旦找到这些表示因果关系的句子,下一步就是将其分解为关心的字段。这其实就是一个知识提取的过程,具体的算法就暂且不表。

相比上一步,这一步最大的麻烦是有很多信息噪音,会有许多不是财务项目的字段提取出来。

因为我们对财务指标的准确度要求比较高,最终决定使用白名单来过滤噪音的办法。我们让让专业金融支持团队人工建立了一个财务项目白名单,只有当字段中出现这些财务项目时,才会对其提取保存。在过滤了这些噪音之后,最终的效果还是令人满意的。

一份年报中,会出现数个甚至数十个这样的抽取结果,而随着报告的数量上升,在海量的数据供给下,在利用先进的算法将这些数据进行进一步的处理和挖掘,则机器智能开始显现。人们生活中依靠常识性思维判断的知识被计算机系统所“知晓”,甚至推理出由人类思维所无法达到的深层因果关系,使人们进一步明确事物间的引起与被引起作用,有利把控事物间的不利影响。


如果你想查看我们具体的抽取结果,可以在关注我们的公众号之后,发送“年报因果抽取”关键字即可获得文件下载链接。

如果你有更多关于对上市公司公开信息中的因果关系抽取有想法,无论是技术改进还是应用层面的思路,我们都欢迎在文章下方进行留言,也可以发送邮件至
contact@memect.co 进行更深度的交流。


加入智能金融交流群

添加微信群管理员微信号 qgyx123,附上姓名、所属机构、部门及职位,审核后管理员会邀请您入群。

登录查看更多
10

相关内容

最新《自然场景中文本检测与识别》综述论文,26页pdf
专知会员服务
69+阅读 · 2020年6月10日
因果关联学习,Causal Relational Learning
专知会员服务
182+阅读 · 2020年4月21日
【综述】金融领域中的深度学习,附52页论文下载
专知会员服务
163+阅读 · 2020年2月27日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
356+阅读 · 2020年2月15日
KGCN:使用TensorFlow进行知识图谱的机器学习
专知会员服务
81+阅读 · 2020年1月13日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
知识图谱从哪里来:实体关系抽取的现状与未来
PaperWeekly
6+阅读 · 2019年11月23日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
教程 | 如何使用深度学习执行文本实体提取
机器之心
4+阅读 · 2018年4月8日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
知识图谱之语义网络篇
炼数成金订阅号
7+阅读 · 2017年8月16日
漆桂林 | 知识图谱之语义网络篇
开放知识图谱
19+阅读 · 2017年8月12日
量子世界的因果关系
中国物理学会期刊网
8+阅读 · 2017年8月5日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
15+阅读 · 2018年2月4日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
相关资讯
知识图谱从哪里来:实体关系抽取的现状与未来
PaperWeekly
6+阅读 · 2019年11月23日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
教程 | 如何使用深度学习执行文本实体提取
机器之心
4+阅读 · 2018年4月8日
刘志明 | 知识图谱及金融相关
开放知识图谱
13+阅读 · 2017年12月18日
知识图谱之语义网络篇
炼数成金订阅号
7+阅读 · 2017年8月16日
漆桂林 | 知识图谱之语义网络篇
开放知识图谱
19+阅读 · 2017年8月12日
量子世界的因果关系
中国物理学会期刊网
8+阅读 · 2017年8月5日
Top
微信扫码咨询专知VIP会员