全球首届AI金融实战技术大赛冠军方案分享,三个月拿走50万

2018 年 9 月 6 日 新智元

新智元AI WORLD 2018世界人工智能峰会

倒计时13


新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,南京大学计算机系主任、人工智能学院院长周志华教授届时将亲临会场做《关于机器学习的一点思考》主题演讲。周志华教授是AI领域会士“大满贯”得主,AAAI 2019程序主席、IJCAI 2021程序主席,《机器学习》一书的作者。

  • 活动行购票二维码: 




  新智元报道 


【新智元导读不久前刚结束FDDC大赛,武汉大学计算机学院软件工程实验室的Alassea lome团队,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠,本文主要将冠军的方案以及大赛亮点进行介绍和回顾。


上月底,2018全球金融数据探索与发现大赛(FDDC)的决赛落幕,10支队伍激烈角逐,也让现场观众见证了AI将如何改变资产管理的未来。


FDDC大赛是全球首场专注金融领域、深入投资实战的技术大赛,由中国证券投资基金业协会(以下简称“基金业协会”)金融科技专业委员会主办,易方达基金、华夏基金、通联数据、阿里云共同承办,奖金池一共高达84万元。



大赛共有两个任务,一是利用AI对上市公司进行营收预测,另一个是对上市公司公告进行信息抽取。这两个都是资产管理中最基本而又最重要的两项工作,往往会决定投资决策的成败。


FDDC大赛,旨在挖掘更多顶尖算法人才,提升资产管理行业的科技化程度。在3个多月的时间里,大赛吸引了全球4231支队伍参与,经过线上初赛和复赛,共有10支队伍进入最终决赛。


最终,来自武汉大学计算机学院软件工程实验室的Alassea lome团队,将预测误差降低至7%,获得上市公司营业收入预测赛题第一名,而一人团队GOGOGO则摘得上市公司公告信息抽取赛题桂冠。


数值预测准确率最高  独特数据处理,将营收预测误差仅7%!


Alassea lome团队来自于武汉大学计算机学院软件工程实验室,团队的导师为蔡恒进,主要研究领域是人工智能、金融信息工程及服务科学。


FDDC大赛上市公司营收预测赛题第一名Alassea Lome团队


这次的“上市公司营收预测”赛题,官方到的数据包括三大财务报表、宏观数据、行业数据、公司经营数据、行情数据等。比赛评测指标是选手对公司二季度的营业收入比率误差的计算,如何准备预测公司半年报实际营收,是这道赛题取胜的关键。


在训练集生成上,团队首先把三大财务报表里面的数据提取出来,接下来引入申万的行业分类这一类别特征。值得注意的是,申万的一级行业分类由28个被团队拆分成30个,同时还加入了能够表征行业数据的指数行情,以及行业估值信息,这里面所有的指标都会经过团队的独特处理。


在公司的维度,团队加入沪深股票日行情以及个股日资金流向,同时引入财务衍生数据和多因子数据。这些特征的比起基本财务数据的优势在于,它们是经过优秀的研究员精心挑选和计算过,可能更具有解释力。


除了刚刚提到的特征,团队还加入了滑窗特征。滑窗特征是什么呢?



以预测公司二季度的营收为例,除了告诉模型一季度营收之外,还告诉公司前四季度的营收。之所以这样做的原因是,金融数据是一个时序非常强的序列,因此团队还告诉模型它的历史上的一些信息。相应的,团队还加入了比率滑窗的特征。


训练方式采取了滑窗模式,五年一滑,但是有三个验证集。模型的最优参数是在三个验证集上的平均loss最小的参数,还列举了不同的模型算法它的表现。


选了那么多特征之后,怎么把最重要的特征筛选出来呢?


首先团队会多轮预跑,得到所有特征的重要性。然后选出来重要特征重新生成训练集,在训练集上进行网格搜索,确定最优的模型参数。



模型部署方面,时序模型不需要训练,它的loss大概在0.48左右。团队的主模型是xgb,辅助模型是Random Forest。模型融合是线性分类器,模型保存了最终部署的27个模型,从行业的角度去选择最终利用哪个模型。


最终,团队的复赛得分是0.43,如果换算成营业收入的误差,在7%以内。


从不同公告找到共性知识结构,做直接的实体全量标注


赛题二是上市公司公告重要信息抽取。


本赛题要求对“股东增减持”、“重大合同”和“定向增发”3 个类型的公司公告进行信息抽取,实际上是对公司关键事件进行结构化提取。


GOGOGO团队获得本赛题第一名。他们首先是对HTML结构的提取,包括一些数据清理和转换、表格识别等。


FDDC大赛上市公司公告信息抽取赛题第一名GOGOGO团队


在算法中,团队运用了反向标注,然后建立一个NER的模型预测实体。GOGOGO的标注不同之处在于,他们做了直接的实体的全量标注。因为现有的很多通用的实体识别,是识别出一个公司名称或者是不是数值,团队直接把它的类型给定义清楚。



实体标注技巧是模型里面比较重要的地方之一,另一方面,团队还用到奥卡姆剃刀原则。


奥卡姆剃刀原则主要表现在人倾向于用一个简单的方法表现一个内容,会用简单的方法不会用复杂的方法。比如,有很多合同里面没有乙方的表示,默认发公告的一方就是乙方。


模型验证策略方面,团队在研究这个问题的时候,发现召回率是很重要的,信息一旦漏掉了是捞不回来的,因此可以通过人工的方法提高它。第二是模型效率的问题,因为用到很多抽象的方法,很多情况下并没有通篇读,所以速度非常高,基本上控制在秒级。整个过程中大部分时间还是在实体识别里面。


10支团队瓜分近百万奖金,AI再度深入投资实战


FDDC大赛是全球首场专注金融领域、深入投资实战的技术大赛,历时3个多月,4231支队伍经过线上初赛和复赛,共有10支队伍进入决赛,于8月29日在北京进行现场答辩,8月30日,两道赛题的前三名共6个团队参加了终极对决。


本次大赛特设84万奖池,冠军更是能获得高达25万的丰厚奖金。

这次比赛结果是:


赛题一(上市公司营收预测)

第一名:Alassea lome团队:吴云、万珊红、洪成晨、潘航、刘帅

第二名:Quant_duet团队:林汉轩、邱爽

第三名:智能金融团队:汪志文


大赛评委之一,香港科技大学副教授、惠理投资中心副主任尤海峰点评:


智能金融团队根据财务报表相互关联的特点,创造性的把GPDT和DNN两种算法结合起来,先用GPDT的算法自动的构造组合特征,在此基础上结合DNN深度学习的方法进行预测,取得了很好的效果。


FDDC大赛上市公司营收预测赛题第三名智能金融团队


Quant duet团队首先把财务数据进行了拆分,把历史的营收和其他的财务数据给分割出来,剔除了历史营收的财务数据,构建了多因子的预测模型,然后又把单独拿出来的历史营收数据和市场数据相结合,用一个全连接网络深度学习的模型做预测,最后把两个预测模型给整合起来。


FDDC大赛上市公司营收预测赛题第二名Quant duet团队


这种数据拆分其实是提高了两个模型的独立性,从而在整合的时候、融合的时候能够达到分散错误的效果。


Alassea Lome团队展现了机器学习算法和领域知识很好结合起来的能力。首先他们对数据做了很好的理解、很好的处理和去噪音各种各样的处理,然后根据他们对不同类型的公司理解,在特征选择上和算法选择上都进行了个性化的处理,从而达到很好的预测效果。


赛题二(上市公司公告信息抽取)

第一名:GOGOGO团队:黄泽炽

第二名:Heisenberg团队:冯霁、李永刚、苏洋洋

第三名:Miyabi团队:李灏舟、王夺、丛冠男、胡一川


最具创意极客奖:东风又绿江南岸团队(林建生、宋云生、宫保伟、林刚),智能ABC团队(周武洁、郭炫志);


最具潜力极客奖:KingofWind团队(李立),ASD123团队(肖艳清、杨舰);


通联数据CEO王政点评上市公司公告信息抽取赛题复赛前三团队:


Miyabi团队用表格和分类的方法来抽取,能够快速抽取结果;分类的方法能判断哪些可以抽取。


FDDC大赛上市公司公告信息抽取赛题第三名Miyabi团队


Heisenberg团队有两个亮点:1、有实用价值的系统架构,能很快用到工业界。2、在实体识别的方法比传统的有很大提升。


FDDC大赛上市公司公告信息抽取赛题第二名Heisenberg团队


GOGOGO团队把不同公告的问题找到了一些共性的知识结构,能快速把复杂问题降维。另外,通过章节的识别提升效率。


王政表示,通过这次FDDC大赛,AI在金融领域的应用得到了新的发展,但是以后问题会越来越难、越来越多,期待更多算法专家加入金融行业,推动金融科技的发展。




新智元AI WORLD 2018世界人工智能峰会

倒计时 13 

门票已开售!


新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授 Tom Mitchell,迈克思·泰格马克,周志华,陶大程,陈怡然等AI领袖一起关注机器智能与人类命运。


大会官网:

http://www.aiworld2018.com/ 


  • 活动行购票链接:

    http://www.huodongxing.com/event/6449053775000

  • 活动行购票二维码: 


登录查看更多
1

相关内容

知识抽取,即从不同来源、不同结构的数据中进行知识提取,形成知识(结构化数据)存入到知识图谱。
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
111+阅读 · 2020年4月12日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
121+阅读 · 2019年10月10日
2019腾讯广告算法大赛方案分享(冠军)
大数据技术
12+阅读 · 2019年8月26日
国际大数据分析竞赛(IWC 2019)
专知
6+阅读 · 2019年2月19日
Arxiv
3+阅读 · 2019年9月5日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
6+阅读 · 2018年4月23日
Arxiv
4+阅读 · 2018年2月13日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
【哈佛《CS50 Python人工智能入门》课程 (2020)】
专知会员服务
111+阅读 · 2020年4月12日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
121+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员