(注:本分来自凡人机器学习投稿人张聪的投稿,感谢张聪同学。)
资金池是把资金汇集到一起,形成一个像蓄水池一样的储存资金的空间。目前企业最大的资金池来源是先收取很大一部分钱,再进行资产运作,例如p2p的存款,共享单车的押金,以及运营商的合约机等。资金池扩大的过程,会有遇到瓶颈,那么如何实现突破瓶颈点?机器学习方法为您解析!
电信合约机的资金池
图1 电信合约机市场
本文以电信行业的合约机为例,电信运营商行业有庞大的用户群体,一个重要资金池扩大方法在于合约用户,例如两年存费送机模式,即预付两年话费,送一个合约手机,通过以上模式获得大量资金池后可以进行资金运作。
应用机器学习
图2 应用机器学习
瓶颈:随着社会发展,资金池的重要来源在于新客户,然而,市场竞争必然会越来越激烈,合约到期的老客户中,再次购买比率很低,流失很高。传统方法很难有效分析流失用户。
瓶颈的衡量标准:运营商每个月通过保有率(续约人数*续约金额/合约到期人数*到期金额)指标表示资金池内的金额可以继续持有的比率。
瓶颈解决方法:应用机器学习的方法,精准分析可能流失老用户进行维系,提高保有率,避免资金池内资金的流失,即用户数据间接实现增收变现。
机器学习的业务本质,机器学习主要分为两个方面,特征,算法。
机器学习的目的就是通过数据,精准的拟合出人类的大脑认知。
特征:人类大脑认知是会思考用户可能流失的行为。
算法:对行为进行组合,确定谁会流失。
业务使用的机器学习模型过程
1.确立时间
图3 时间窗划分
时间窗划分:前三个月的行为,判断第五个月的行为,为什么这样呢?因为判断出第五个月用户会流失,在间隔的一个月中即可电话维系。
2.变量与自变量确定
变量与自变量确定分为两个大步骤,第一,选择样本的自变量与变量,第二,对变量进行衍生变量制作。
------------------------选择样本-----------------------
样本选择:到期用户,剔除无行为用户
自变量:表现期是否流失的用户
变量:基本信息(用户等级,是否打印发票,融合业务等等重要因素),终端情况,账单,缴费,流量,短信,语音
图4 变量与自变量确定
变量提取后进行变量处理
------------------------衍生变量-----------------------
静态变量处理:One-hot
动态变量处理:①.行为变量通过时间细分,和行为事件细分,例如,三个月内上午通话时长,三个月内长途通话时长。②.以时间和事件为基准,制作衍生变量:均值(例,三个月通话均值),波动(例,第三个月通话相比三个月均值的变化),比例(三个月长途通话均值/三个月通话均值)。
变量的确定这方面,体现业务经验丰富的重要性,如果是有经验的算法用户会省了很多时间,因为本人在做其他领域项目时,没有任何领域经验,熟悉业务数据过程非常耗时。如果不用深度学习,那么在会花大量的时间在特征工程上面。
3.变量选择
首先,有监督的变量选择是有目的性的选择,变量都是根据目标的关系而选。
1. 显著性,通过IV值等对所有变量进行显著性(good与bad的比率)计算,最终留下IV值高的变量。
2. 相关性,去除变量与变量相关性高的IV值低的变量。
3. 稳定性,查看变量在不同月份对待目标变量的变化趋势。相同,则稳定。
最终留下符合三条标准的变量作为筛选后变量。
4.分类算法
结构化数据的分类算法会有特别多,例如逻辑回归,xgboost,SVM等。
5.模型测试评估
目的:预测流失的用户,由于目的在于找到高流失用户。希望维系挽留。
评估方法:提升度
测试样本(一个月内合约到期的所有人,包括续约用户和非续约用户)预测用户概率前10%的用户,包含所有流失用户的40%。提升度=4.证明模型有效。
机器学习与大脑认知的一致
应用机器学习方法,提取出客户流失的变量行为(语音波动降低幅度很大,没有融合业务等流失概率高),大脑认知代表着客户活跃度忠诚度价值减少。算法将客户活跃度忠诚度价值的行为有效组合判断流失可能性。提取高流失人群。
电信合约机在不断开拓新用户的同时,维系存量用户,实现扩大企业资金池。某运营商的保留率的提升情况如下:
图5 效果示例
总结
本文是机器学习应用,原理可能没有那么复杂,目的是拓宽大家都视野和想法,也许机器学习能做的事情比想象的还要多。数据变现是数据挖掘中的复杂课题,在实际的行业应用中,数据的有效利用会面对业务复杂和问题多样化等。一个大型的数据挖掘项目,常常会遇到数据不显著、不稳定等问题。如何正确的从数据中提取有效价值,以达到最优效果显得犹为重要。因此只有在数据本质上充分的进行数据挖掘,才能有效的创造出真正的生产力。正确的应用机器学习挖掘数据本质才能有效的解决相应业务问题。