机器学习实现扩大企业资金池

2017 年 10 月 12 日 凡人机器学习

(注:本分来自凡人机器学习投稿人张聪的投稿,感谢张聪同学。)

资金池是把资金汇集到一起,形成一个像蓄水池一样的储存资金的空间。目前企业最大的资金池来源是先收取很大一部分钱,再进行资产运作,例如p2p的存款,共享单车的押金,以及运营商的合约机等。资金池扩大的过程,会有遇到瓶颈,那么如何实现突破瓶颈点?机器学习方法为您解析!

电信合约机的资金池

图1 电信合约机市场

本文以电信行业的合约机为例,电信运营商行业有庞大的用户群体,一个重要资金池扩大方法在于合约用户,例如两年存费送机模式,即预付两年话费,送一个合约手机,通过以上模式获得大量资金池后可以进行资金运作。

应用机器学习



图2 应用机器学习

瓶颈:随着社会发展,资金池的重要来源在于新客户,然而,市场竞争必然会越来越激烈,合约到期的老客户中,再次购买比率很低,流失很高。传统方法很难有效分析流失用户。

瓶颈的衡量标准:运营商每个月通过保有率(续约人数*续约金额/合约到期人数*到期金额)指标表示资金池内的金额可以继续持有的比率。

瓶颈解决方法:应用机器学习的方法,精准分析可能流失老用户进行维系,提高保有率,避免资金池内资金的流失,即用户数据间接实现增收变现。

机器学习的业务本质,机器学习主要分为两个方面,特征,算法。

机器学习的目的就是通过数据,精准的拟合出人类的大脑认知。

特征:人类大脑认知是会思考用户可能流失的行为。

算法:对行为进行组合,确定谁会流失。

业务使用的机器学习模型过程

1.确立时间

图3 时间窗划分

时间窗划分:前三个月的行为,判断第五个月的行为,为什么这样呢?因为判断出第五个月用户会流失,在间隔的一个月中即可电话维系。

2.变量与自变量确定

变量与自变量确定分为两个大步骤,第一,选择样本的自变量与变量,第二,对变量进行衍生变量制作。

------------------------选择样本-----------------------

样本选择:到期用户,剔除无行为用户

自变量:表现期是否流失的用户

变量:基本信息(用户等级,是否打印发票,融合业务等等重要因素),终端情况,账单,缴费,流量,短信,语音

图4 变量与自变量确定

变量提取后进行变量处理

------------------------衍生变量-----------------------

静态变量处理:One-hot

动态变量处理:①.行为变量通过时间细分,和行为事件细分,例如,三个月内上午通话时长,三个月内长途通话时长。②.以时间和事件为基准,制作衍生变量:均值(例,三个月通话均值),波动(例,第三个月通话相比三个月均值的变化),比例(三个月长途通话均值/三个月通话均值)。

变量的确定这方面,体现业务经验丰富的重要性,如果是有经验的算法用户会省了很多时间,因为本人在做其他领域项目时,没有任何领域经验,熟悉业务数据过程非常耗时。如果不用深度学习,那么在会花大量的时间在特征工程上面。

3.变量选择

首先,有监督的变量选择是有目的性的选择,变量都是根据目标的关系而选。

1. 显著性,通过IV值等对所有变量进行显著性(good与bad的比率)计算,最终留下IV值高的变量。

2. 相关性,去除变量与变量相关性高的IV值低的变量。

3. 稳定性,查看变量在不同月份对待目标变量的变化趋势。相同,则稳定。

最终留下符合三条标准的变量作为筛选后变量。

4.分类算法

结构化数据的分类算法会有特别多,例如逻辑回归,xgboost,SVM等。

5.模型测试评估

目的:预测流失的用户,由于目的在于找到高流失用户。希望维系挽留。

评估方法:提升度

测试样本(一个月内合约到期的所有人,包括续约用户和非续约用户)预测用户概率前10%的用户,包含所有流失用户的40%。提升度=4.证明模型有效。

机器学习与大脑认知的一致

应用机器学习方法,提取出客户流失的变量行为(语音波动降低幅度很大,没有融合业务等流失概率高),大脑认知代表着客户活跃度忠诚度价值减少。算法将客户活跃度忠诚度价值的行为有效组合判断流失可能性。提取高流失人群。

电信合约机在不断开拓新用户的同时,维系存量用户,实现扩大企业资金池。某运营商的保留率的提升情况如下:


图5 效果示例

总结

本文是机器学习应用,原理可能没有那么复杂,目的是拓宽大家都视野和想法,也许机器学习能做的事情比想象的还要多。数据变现是数据挖掘中的复杂课题,在实际的行业应用中,数据的有效利用会面对业务复杂和问题多样化等。一个大型的数据挖掘项目,常常会遇到数据不显著、不稳定等问题。如何正确的从数据中提取有效价值,以达到最优效果显得犹为重要。因此只有在数据本质上充分的进行数据挖掘,才能有效的创造出真正的生产力。正确的应用机器学习挖掘数据本质才能有效的解决相应业务问题。


登录查看更多
0

相关内容

专知会员服务
81+阅读 · 2020年6月20日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
专知会员服务
125+阅读 · 2020年3月26日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
133+阅读 · 2020年3月25日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
107+阅读 · 2020年1月2日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
98+阅读 · 2019年12月29日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
量化交易系列课程
平均机器
11+阅读 · 2019年5月9日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
已删除
将门创投
9+阅读 · 2018年12月19日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
八大步骤,用机器学习解决90%的NLP问题
机器学习研究会
5+阅读 · 2018年1月26日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Arxiv
3+阅读 · 2018年5月28日
Arxiv
7+阅读 · 2018年3月19日
Arxiv
6+阅读 · 2018年1月14日
VIP会员
相关VIP内容
专知会员服务
81+阅读 · 2020年6月20日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
专知会员服务
125+阅读 · 2020年3月26日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
133+阅读 · 2020年3月25日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
107+阅读 · 2020年1月2日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
98+阅读 · 2019年12月29日
【大数据白皮书 2019】中国信息通信研究院
专知会员服务
138+阅读 · 2019年12月12日
相关资讯
量化交易系列课程
平均机器
11+阅读 · 2019年5月9日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
已删除
将门创投
9+阅读 · 2018年12月19日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
八大步骤,用机器学习解决90%的NLP问题
机器学习研究会
5+阅读 · 2018年1月26日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
Top
微信扫码咨询专知VIP会员