另类数据里的大乾坤

2019 年 7 月 16 日 优矿量化实验室

另类数据包罗万象

如果你可以知道每年苹果/华为产品发布前,网友发布相关微博的数量变化;如果你可以知道每天全国发生多少笔消费、消费者都在买什么;如果你可以知道每天有多少辆车进出你家附近那个超市的停车场;如果你可以知道每天你所在的地区有多少工厂在开工生产……你的投资可能会变得容易很多。

它们无处不在,但想以方便的形式获取却并不容易。这类对投资有用但不能直接从资本市场获取的数据,就被投资者称为“另类数据”。

摩根大通将另类数据分为以下三类:第一类是个人在网络上的行为数据,如社交媒体、商品评价、搜索引擎上的数据等;第二类是商业活动中产生的数据,如交易记录和信用记录等;第三类是由高科技监测获取的数据,如卫星图片、地理位置、气候变化数据等。

案例研究:推特、邮箱、停车场里的投资秘密

另类数据如何辅助投资可能是投资者更为关心的问题。我们在以上三种另类数据类别中,各选取了一个前沿应用实例,供投资者参考。

案例一:从推特看市场情绪

个人行为数据中最常见的是社交媒体数据。2011年发表于《Journal of Computational Science》的论文《Twitter Mood Predicts the Stock Market》研究了美国社交媒体推特隐含的情绪指标与道琼斯工业指数之间的关系。他们从推特中提取关于情绪指标的关键词,并将这些关键词用模型处理后归为以下6个因子:“平静程度”、“警惕程度”、“确定程度”、“热情程度”、“友善程度”、“开心程度”。

论文把这些情绪因子与道琼斯指数进行了拟合,发现2008年2月到12月间,6个因子中“平静程度”的变化对预测道琼斯指数最为有效。“平静程度”的变化与公众的焦虑程度有关,公众焦虑程度越低,则“平静程度”越高,这时道琼斯指数就会升高。引入“平静程度”的模型对道琼斯指数的预测准确率达到了惊人的87.6%。

图表一:“平静程度”与道琼斯指数 

来源:《Twitter Mood Predicts the Stock Market》, Johan Bollen; Huina Mao; Xiao-Jun Zeng

案例二:从购物收据看消费特征

智能投研公司Eagle Alpha从合作伙伴处得到超过200万份通过邮箱发送的购物收据,共覆盖25个行业、600家供应商,他们通过算法把这些购物收据转为53种商品的销售交易数据。

转化完成后,Eagle Alpha对用户购买不同品牌的商品数量变化以及使用不同支付工具的频率变化进行分析,据此发布了十份相关股票的股价预测报告。其中,共有八份报告正确预测了股票走势,且预测上涨的股票均获得了显著超额收益。

图表二:基于邮件收据预测的回测结果

来源:Eagle Alpha

案例三:从停车场看门店景气

一家名叫Orbital Insight的数据公司为对冲基金监测零售商的停车场数据,他们认为:停车场的车越多,说明该零售商的业务越红火。

利用卫星监测,他们在杰西潘尼(JCPenny)关闭130家门店之前就根据停车场汽车数量的变化预测到了它业绩下滑的前景,并提示对冲基金及时卖出股票。从拟合图表来看,停车场的汽车数量与股价的相关性极高。

图表三:杰西潘尼停车数量与股价

来源:Orbital Insight

另类数据占领华尔街

相较于传统财务数据而言,另类数据更具时效性,且视角更为多元。但这些数据往往不容易获取与处理,所以常常被投资者忽视。不过在过去十年中,它们在海外投资机构中越来越受到重视,逐渐成为主流。

根据Eagle Alpha的统计,截至2017年,46%的美国投资机构正在使用另类数据进行投资,较2016年的31%大幅提升了15个百分点;另外还有32%的机构准备在接下来的一年内使用另类数据。

图表四:正在使用以及准备使用另类数据的机构数量占比

来源:Eagle Alpha

具体来看,在需求端,文艺复兴基金、摩根大通、高盛集团以及英国的资产管理公司Schroders等众多知名机构已经在使用另类数据投资;而在供给端,知名数据服务商如彭博、路透等也纷纷看到了其中的商机,开始提供越来越多样化的另类数据服务。展望未来,另类数据有望成为头部投资机构信息优势的重要来源,在应用范围、应用深度和应用频率上持续、显著提升。

通联数据在另类数据方面的探索参见:另类数据,正在拉开你与同行的距离

-- the end --

优矿是由通联数据出品,覆盖研究、回测、模拟、实盘交易全流程的量化平台。优矿不仅拥有通联海量的金融数据、动态丰富的策略框架,同时还通过知识库信号库提供持续的知识输出,满足用户在研究过程中高效获取、迅速验证、多维度挖掘、多策略并行的迫切需求,为投资决策提供重要支持。


扫二维码,立即预约试用!


↓↓↓ 点击"阅读原文" 【查看更多】  

登录查看更多
1

相关内容

商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
162+阅读 · 2020年5月14日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
122+阅读 · 2019年10月10日
教程帖:如何解决90%的NLP问题(上)
论智
3+阅读 · 2018年2月12日
新闻客户端AI推荐系统解析
产品经理读书会
9+阅读 · 2018年1月12日
预言|李开复预见2018:明年会有一批AI公司倒闭
机器人大讲堂
6+阅读 · 2017年12月15日
数据科学与机器学习数据集
Datartisan数据工匠
8+阅读 · 2017年12月14日
Compositional Generalization in Image Captioning
Arxiv
3+阅读 · 2019年9月16日
Arxiv
9+阅读 · 2018年5月22日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
162+阅读 · 2020年5月14日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
122+阅读 · 2019年10月10日
Top
微信扫码咨询专知VIP会员