基于日内模式的因子改进丨优矿深度报告系列(九)

2018 年 7 月 3 日 优矿量化实验室


本文利用优矿提供的行情数据,参考东吴证券《因子方法论之一:基于日内模式的因子改进》(作者:高子剑、魏建榕)中的研究方法,对研报的结果进行了实证分析,提供一个日内信息改进因子的普适思路。研究结论如下:


  • 基于2013-04-01至2017-10-31月度调仓回测结果,基于换手率的局部流动性因子存在额外的收益贡献,10:30-11:30时段的局部换手率因子收益预测能力表现不俗且稳定;

  • 合并局部流动性因子和传统流动性因子,得到改进后的流动性因子。基于2013-01-01到2017-12-31的月度调仓回测结果,相对于原始流动性因子,改进后的因子的优点是降低了收益预测的波动性,从而降低收益波动率,提高收益风险比,且对原始因子的市值衰减性有一定的缓解效果,更具有行业普适性;缺点是提高了因子换手率。



1第一部分:工具函数和因子值计算


1.1为因子计算和因子分析提供基础,构造工具函数,诸如:

  • ticker2secID(ticker): ticker转换secID

  • secID2ticker(secID): secID转换ticker

  • winsorize_standardize(df, col_name): 去极值和标准化处理

  • neutralize_my(df, x_col, y_col): 中性化处理

  • get_monthend(df, trade_calendar): 获取数据中每个月最后一个交易日的数据




1.2 计算传统流动性因子

首先,计算换手率因子,就是计算近20个交易日的换手率之和,再取对数。记 TRs,t 为股票s第t日的换手率, 则换手率因子计算如下: 



特别说明,当个股在过去20个交易日出现停牌时,计算非停牌日的换手率均值的对数值作为换手率因子值。


因为原始的换手率因子和市值具有高度负相关性,为了消除市值的影响, 我们将换手率因子关于对数流通市值做中性化处理, 即将换手率因子关于对数流通市值做横截面回归,取残差为基于换手率的流动性因子。记LnFMVs,t 为对数流通市值,流动性因子 LIQs,t 计算如下:



在剔除市值影响之前,我们会对因子做以下处理,下面类似操作,也会做同样处理:

  • 在做横截面回归时,我们会剔除上市不足60个交易日的次新股、ST股以及停牌个股。在该部分会计算一个股票禁止池,包含上述股票;

  • 将因子值做去极值、标准化,其中去极值的具体做法是将3倍标准差外的数据压缩到3倍标准差。




1.3 计算局部流动性因子

将每个交易日分为互不相交的5个时段:隔夜(开盘前的集合竞价)、9:30-10:30、10:30-11:30、13:00-14:00、14:00-15:00, 则每天的换手率就是这5个时间段的换手率之和, 每个时段的换手率在传统的换手率因子中以等权的形式体现。这样处理的方式会忽略个股之间日内换手率分布情况的差异, 例如假设A股票和B股票日换手率相同, 但是A上午流动性高于B,B下午的流动性高于A,这样的差异在传统流动性因子中并不能体现出来,但是这种信息是否会对选股贡献收益呢?下文进行进一步研究。


研报中通过对分时段的收益率与市场收益率进行回归, 研究局部R方, 发现每个时段包含的信息确实具有差异, 因此A股确实存在日内特定的交易模式。


参照传统换手率因子的计算方法,我们可以计算局部换手率因子。记 TR(0)s,t、 TR(1)s,t、TR(2)s,t、TR(3)s,t、TR(4)s,t为股票s第t日在上述5个交易时段的换手率, 则局部换手率因子计算如下: 



停牌处理方式与传统流动性因子处理一致。


同样地, 将局部换手率因子关于对数流通市值做中性化处理:



得到的残差LIQ(k)s,t即为局部流动性因子。


局部流动性因子可近似看作是传统流动性因子的一部分,因此局部流动性因子LIQ(k)s,t和传统流动性因子LIQs,t必然具有高相关性,为了考察局部流动性因子是否能提供额外的选股增益信息,将局部流动性因子LIQ(k)s,t关于传统流动性因子LIQs,t进行回归,最终得到纯净的局部流动性因子,处理如下:



残差pureLIQ(k)s,t就是纯净的局部流动性因子。




2第二部分:传统流动性因子和局部流动性的因子分析


2.1 传统流动性因子LIQ的效果分析

考察传统流动性因子的预测能力,计算它的IC表现。

  • 计算IC: 计算月底因子值与下个月的收益率的秩相关性系数;

  • 统计IC: 统计出因子IC的平均值、标准差、IC_IR、大于0的比例以及下月IC的相关系数。


对传统流动性因子LIQ进行多空对冲测试,具体操作为:

  • 因为在计算因子时,已经剔除了次新股、ST股、停牌个股等禁止池的股票,因此在对空测试时,样本空间为剔除禁止池以外的全体A股;

  • 调仓频率为月度, 每个月底根据因子值从大到小将因子等分为5组。因为传统流动性因子为负向因子,因此做多因子值最小的一组,做空因子值最大的一组,每组等权配置获得多空组合;

  • 多空对冲测试为简易测试,不考虑交易时的涨跌停情况和交易费用。


下文的IC统计和多空对冲测试操作都是类似的。


为了对比研报中的结果,在分析因子效果部分,我们选定2013-04-26至2017-10-31这个时间段作为测试区间,与研报设置一致。


基于回测结果可知, 传统流动性因子本身就是一个较好的负向因子,其IC值达到0.12, 已经有不错的预测能力。因子分析结果作为改进因子的比较基础。




2.2 局部流动性因子pureLIQ的效果分析

考察局部流动性因子的预测能力,计算它的IC表现。



  • 从上述结果来看, 隔夜和14:00-15:00这两个时段的局部换手率因子(pureLIQ0, pureLIQ4)的IC均值小于-0.02,T统计量小于-2, IC大于0的占比小于50%,年化收益率小于0,因此有负向收益贡献;10:30-11:30和13:00-14:00这两个时段的局部换手率因子(pureLIQ2, pureLIQ3)的IC均值大于0.02,T统计量大于2, IC大于0的占比小于50%,因此有正向收益贡献。9:30-10:30时段的局部换手率因子(pureLIQ1)的IC均值接近于0,T统计量小于-2,且IC均值方向为负,但IC大于0的占比大于50%,方向矛盾,因此认为没有收益贡献;

  • 综合IC各种统计结果,pureLIQ2的IC均值绝对值最大,且IC标准差最小,IC大于0的占比高达77.8%,因此pureLIQ的因子预测效果最好,且效果稳定。其次是pureLIQ3和pureLIQ4,pureLIQ4的IC均值更高,预测效果更好, 但是pureLIQ3的IC标准差更小,预测效果更稳定,因此它们的ICIR相近。最后是pureLIQ0,IC均值和puerLIQ3相近,但是稳定性不如pureLIQ3;

  • 观察局部流动性因子的IC序列,考察因子的IC值是否受个别极值影响,从图上也可以看出, pureLIQ2的效果最佳,基本符合上述结论。


进一步,对局部流动性因子pureLIQ进行多空对冲测试, 在此处多空对冲操作中, 做空因子值最小的一组,做多因子值最大的一组,观察局部流动因子的方向。



从多空对冲曲线来看,pureLIQ0、pureLIQ4的负向因子,pureLIQ2、pureLIQ3是正向因子,这与IC统计结果一致。pureLIQ1在多空回测中收益为正,与IC均值方向矛盾;从对空对冲的表现来看,pureLIQ4的夏普率最高,其次是pureLIQ2。


进一步,为了验证局部流动性因子pureLIQ的增益部分是否来自于已知的风格因子或行业因子,我们将pureLIQ关于10个风格因子(Beta,残差波动率,动量,市值,非线性市值,盈利能力,净市率,成长,杠杆,流动性)和申万一级行业因子做中性化处理,得到中性化后的残差。对残差进行IC统计和多空对冲测试。



  • 剔除了已知风格因子和行业因子后,pureLIQ2的IC值仍大于0.02,多空对冲表现依然不错。pureLIQ3、pureLIQ4的IC值都下降到0.02以下。pureLIQ0表现提高。以上说明,局部流动性因子还是存在额外的选股收益的;

  • 综合上述所有局部流动性因子的绩效分析,从统计角度来看,在回测区间内,局部流动性因子存在额外的选股能力。特别地,10:30-11:30时段的局部流动性因子pureLIQ2的表现最好且表现稳定;

  • 以上分析结果,与研报的结果有差异,其原因可能是1)因子计算对停牌等特殊情况的处理不同;2)多空对冲回测细节处理不一致;3)剔除已知风格因子部分,已知风格因子选择不一致。



3第三部分:因子合成及其绩效表现


3.1 改进后的流动性因子MixLIQ构造

为了不引入未来数据,本文根据历史回测区间的局部流动性因子结果,筛选出两个表现较强的因子,与传统流动性因子进行合并。具体做法如下:

  • 合成因子构造区间为2013-01-01至2017-12-31;

  • 每年年初,对过去4年时间的局部流动性因子进行效果测试,选出回测区间内ICIR最大的两个局部流动性因子,考虑方向,与传统流动性因子进行等权合并。例如,2013-01-01,回测2009-01-01至2012-12-31时段内5个局部流动性因子的IC,ICIR绝对值最大的2个局部流动性因子是pureLIQ2,pureLIQ0,方向分别是正向因子、负向因子,因此最后LIQ、pureLIQ2、pureLIQ0, 分别配置1,-1,1的权重合成,得到MixLIQ。


本文是为了考察加入局部流动性因子,是否对传统流动性因子有加成效果,因此采取等权的加权方式。但是实际上,LIQ的因子效果水平远高于pureLIQ,因此采取IC加权,ICIR加权等方式将pureLIQ加入LIQ,MixLIQ的因子效果也许会更好。



3.2 改进后的流动性因子MixLIQ和传统流动性因子LIQ的绩效比较

该部分对MixLIQ和LIQ进行比较,绩效评估包括:IC值统计、行业内选股能力、市值衰减特性检验、分组多头回测表现、不同样本空间内的表现。


IC统计比较


  • 从IC统计结果来看,MixLIQ的IC均值比LIQ低一些,从IC序列来看,整体上,MixLIQ的IC值也比LIQ的IC值小。MixLIQ的IC标准差将近是LIQ的一半,IC大于0的占比也是LIQ的一半,说明MixLIQ的预测稳定性提升了一倍。因此,MixLIQ的ICIR为-1.29,相对与LIQ,提升很多。其次,MixLIQ的下月IC相关系数下降到了33.17%,说明相对与LIQ,MixLIQ的换手率会有一定程度的提高;

  • 局部流动性因子对传统流动因子的效果提升在于提升了因子的预测稳定性;

  • MixLIQ的优点是预测稳定性提升一倍,缺点是提高了因子换手率。


分组多头回测表现


从分组回测结果来看,MixLIQ具有较好的因子单调性。第1组的年化收益率远高于第5组,超额收益率来看,第1组表现优异,说明MixLIQ具有良好的收益水平。



意犹未尽?优矿客户端官网深度报告频道获取完整报告和源代码!!


专业版的用户可以查看并一键克隆所有的深度报告,试用专业版的用户可以查看并一键克隆当月的两篇报告,社区版的用户可以查看我们的报告,寻找研究思路。


-- the end --


Read More:


优矿是由通联数据出品,覆盖研究、回测、模拟、实盘交易全流程的量化平台。优矿不仅拥有通联海量的金融数据、动态丰富的策略框架,同时还通过知识库信号库提供持续的知识输出,满足用户在研究过程中高效获取、迅速验证、多维度挖掘、多策略并行的迫切需求,为投资决策提供重要支持。


扫二维码,立即预约试用!


↓↓↓ 点击"阅读原文" 【查看更多】  

登录查看更多
10

相关内容

基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
卷积神经网络的概述论文:分析、应用和展望,21页pdf
专知会员服务
89+阅读 · 2020年4月7日
经济学中的数据科学,Data Science in Economics,附22页pdf
专知会员服务
35+阅读 · 2020年4月1日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
133+阅读 · 2019年12月12日
金融时序预测中的深度学习方法:2005到2019
专知会员服务
165+阅读 · 2019年12月4日
一文看懂深度文本分类之 DPCNN 原理与代码
人工智能头条
10+阅读 · 2019年2月11日
2018年瑞幸咖啡深度分析报告
行业研究报告
14+阅读 · 2019年2月3日
【年度系列】使用LSTM预测股票市场基于Tensorflow
量化投资与机器学习
19+阅读 · 2018年10月16日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
【工业智能】风机齿轮箱故障诊断 — 基于振动信号
已删除
AI科技评论
4+阅读 · 2018年8月12日
如果你研究多因子模型,这篇文章看不懂就别玩了!
量化投资与机器学习
24+阅读 · 2018年7月31日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
金融时间序列(二)丨数析学院
Datartisan数据工匠
9+阅读 · 2017年12月5日
基于Xgboost + LR + Keras 建模评估用户信用状态
机器学习研究会
5+阅读 · 2017年10月5日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
4+阅读 · 2018年5月10日
Arxiv
7+阅读 · 2018年2月26日
VIP会员
相关资讯
一文看懂深度文本分类之 DPCNN 原理与代码
人工智能头条
10+阅读 · 2019年2月11日
2018年瑞幸咖啡深度分析报告
行业研究报告
14+阅读 · 2019年2月3日
【年度系列】使用LSTM预测股票市场基于Tensorflow
量化投资与机器学习
19+阅读 · 2018年10月16日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
【工业智能】风机齿轮箱故障诊断 — 基于振动信号
已删除
AI科技评论
4+阅读 · 2018年8月12日
如果你研究多因子模型,这篇文章看不懂就别玩了!
量化投资与机器学习
24+阅读 · 2018年7月31日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
金融时间序列(二)丨数析学院
Datartisan数据工匠
9+阅读 · 2017年12月5日
基于Xgboost + LR + Keras 建模评估用户信用状态
机器学习研究会
5+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员