文末有彩蛋:免费公开课《自然语言处理在证券行业中的应用》,本期我们特别邀请了NLP领域专家Sherlock Ho结合一线经验给大家讲述自然语言理解技术在金融领域中的工业级应用。
为什么说自然语言处理技术对证券行业尤为重要?
人工智能技术已经全面打入了金融领域,其中以自然语言处理技术在该垂直行业的突破最为显著。这其中表现最为突出的是证券行业的应用场景。众所周知,证券行业充满着博弈,任何的投资决策都需要经过大量的信息搜集和处理过程。就量化投资而言,我首先需要的就是建模,所谓建模就是需要各种结构化的信号。信号一部分可能来自于量价信息,另一部分则可能来自于技术面或者基本面;对于主观分析来说,为了了解一个公司或者行业,分析师往往需要去搜集和查阅各种相关研报、新闻、公告、基本面等数据,随后通过一系列的方法论来找出数据间的相关性,最后对未来趋势做预测。
随着近几年NLP技术在金融垂直行业的落地,我们惊喜的发现AI技术与证券行业的结合为我们带来了这四大优势:
1、在大数据时代,我们所面临的数据量是几乎以指数增长的。其中,绝大部分属于非结构化信息,比如文本、图片、音频、视频等。包含大量文本数据的新闻、股吧、论坛、微博其实跟投资决策都有一定的关系,但现阶段并没有很好地被利用,甚至被忽略,主要是源于技术的壁垒和领域的新颖性。在未来的几年内,随着移动互联网的持续发展,非结构化数据仍然会以惊人的速度增加。
2、目前的量化建模主要依赖于结构化数据。在这基础上,当我们把非结构化文本转换成结构化信号之后,就可以用来丰富模型的输入从而提升效果。在这方面,美国的量化走在我们的前面,他们早已开始使用自然语言的数据来提升量化模型的准确率,代表性的公司包括two sigma, Sentient technology等。
3、一个分析师可能需要耗费大量的时间去搜集和查阅资料(包括新闻、研报等),从而找到一些信息之间的相关性,但整个过程需要大量的人力成本。事实上,其中的很多流程都可以被机器替代,比如运用自然语言处理技术让机器对原始信息做抽取和分类、做结构化处理、并基于历史数据做相关性验证和逻辑推理等。代表性的公司有Kensho, Ravenpack等。
4、对于投资这种极其专业化的领域,一个分析师能考虑到的边界毕竟是有限的,大多数情况下他们只专注于自己熟悉的行业或领域。相反,AI技术可以无限地延伸知识的边界,能够提供更全面的信息和行业全貌。
NLP应用1:事件的影响- 通过语义技术实时分析出事件对股票、行业的影响
事件对股市的影响是不可忽视的。特别是对于”黑天鹅“事件来说,它们对于股市或许会是连锁式的影响。为了能够分析出这类事件对未来走势的影响,分析师需要搜集大量的资料、并通过统计建模找到一些相关性、再通过回测等手段最终给出一个方案,但这个方案可能是一个次优解。其实整个分析研究过程是存在一些共性的,如果利用自然语言以及知识图谱的技术去让机器自动识别被影响的个体以及影响路径等,这就会大大提升分析师的效率,从而在最短的时间内做出最优决策。
这里有两个核心的问题需要解决。
第一、需要实时监测正在发生中的重要事件,或者甚至去预测不久将来有可能会发生的事件。如果能在信息的获取上比别人提早一些,这其实也是一个很大的竞争力。美国有一家非常优秀的创业公司叫dataminr,专注于事件监测。他们通过实时抓取twitter上的内容,可以在第一时间内预测出一些重要的事件,比如某些地域里疾病的突发。
第二、为了判断事件的影响,我们需要去挖掘历史数据,找出类似的事件并从中学出一些有价值的模式(pattern)。这里有很多的挑战,比如怎么去处理稀疏事件?怎么去比较事件相似度?怎么去量化因果关系?怎么去排除环境中的干扰因素?怎么去设计模型使得不容易过拟合?此外,这对系统实时性的要求也非常高。在这类问题上,美国的kensho是最具有代表性的公司。
NLP应用2:相关性分析- 搭建包含各类金融实体的大规模金融知识图谱
一个黑天鹅事件的发生会导致一系列连锁效应,比如石油价格重上100美元。这类的事件一旦发生之后,如果有一个系统能在秒级内以全景图的方式展示出很可能被影响到的范围,它的价值是非常大的。这个范围可以包括任何跟金融相关的实体,有可能是公司、也有可能是行业、甚至是人物或者其上下游关系。除了黑天鹅事件,其他的重要政治事件、政策新闻、甚至非金融类事件也有可能对整个(或者部分)市场产生一定的影响。
在这类总结性的问题上,机器会比人做得更加优秀。两个主要原因:1. 海量的信息处理能力机器要远优于人;2. 机器能考虑到的边界是无限的,但相反,一个分析师一般只会去关注某一个细分投资领域。搭建此类的知识图谱是一个很复杂的过程,从信息的获取、关键信息的抽取、标签化、关联分析到推理,每一个环节都具有不同程度的挑战性。但是如果有了这类的图谱,我们就可以回答解释很多有趣的问题
为了让大家对自然语言处理在金融证券行业的应用有更深入的了解,贪心学院邀请NLP专家以《自然语言处理在证券行业中的应用》为题进行公开课
公开课大纲:
1、NLP关键技术:事件发现和关联
•新词发现:
•无监督;有监督;
•相似度计算:行业相关,种子词相关;
•完善列表
•事件关联:
•构建图
•推理(FOL,bayesian networks)
•知识图谱
2、深度学习完成研报重点标注
• 从研报或新闻中,提取出我们关心的内容(比如目标价,买入推荐,事件等)
• sequence labeling
•两种实现方式:
• LSTM: one to one
• textcnn: many to one
3、深度学习进行情绪识别
•人类的基本情感
•分几类的权衡
•短文本,长文本略有不同
关注公众号“贪心科技”,回复关键字“公开课”获得免费公开课地址。
贪心学院
融合了PBL的全新AI教育模式
硅谷顶级AI科学家担任学员导师
通过完成AI项目,获得AI项目实操经验
最终帮助学员成功迈入AI领域!