【技术贴】P2P运营手册:怎样摸透用户的投资产品偏好 并打上标签

2017 年 10 月 1 日 互联网金融 姜頔

用户画像,想必运营的小伙伴们都非常熟悉,核心工作就是给用户打标签,以便后续更好执行后续营销策略与精细化营销。标签有多种,比如年龄、地域、收入等等。今天我们就用聚类方法来给用户打标签,根据用户在平台的购买产品情况来判断这个人的购买偏好,加之以标签,并针对各类用户未来制定营销计划。

我们会用4种常用聚类模型进行分析,并最终对这4种模型进行综合评定,选出最佳模型进行聚类分析。这4种模型分别是:K-mediod、K-means、两步法和kohonen。

下面我们先对这四种模型进行简单的介绍:

模型一 k-means:

以欧氏距离作为相似度测量的硬聚类算法,算是聚类算法中的“一哥”,本人也经常使用,在我之前文章中也多次提及,算法这里就不在赘述了。

模型二 k-mediod:

k-mediod和Kmeans算法核心思想大同小异,但是最大的不同是在修正聚类中心的时候,k-mediod是计算类簇中除开聚类中心的每点到其他所有点的聚类的最小值来优化新的聚类中心。因此,相对于K-means,k-mediod优点在于对噪声和孤立点不敏感。缺点是计算时间过于冗长。K-mediod需要不断的找出每个点到其他所有点的距离的最小值来修正聚类中心,这大大加大了聚类收敛的时间。

模型三 kohonen:

Kohonen网络是自组织竞争型神经网络的一种,该网络为无监督学习网络,能够识别环境特征并自动聚类

Kohonen神经网络算法工作机理是在网络学习过程中,当样本输入网络时,竞争层上的神经元计算输入样本与竞争层神经元权值之间的欧几里德距离,距离最小的神经元为获胜神经元。调整获胜神经元和相邻神经元权值,使获得神经元及周边权值靠近该输入样本。通过反复训练,最终各神经元的连接权值具有一定的分布,该分布把数据之间的相似性组织到代表各类的神经元上,使同类神经元具有相近的权系数,不同类的神经元权系数差别明显

模型四 两步:如其名,就两步!

第一步打开程序,第二部出数完事!开玩笑…

第一步 预聚类阶段:采用了BIRCH算法中的CF树生长的思想,随后逐个读取数据集中数据点,在生成CF树的同时,预先聚类密集区域的数据点,形成子簇。

第二部 聚类:以第一步形成的子簇为对象,利用凝聚法(agglomerative hierarchical clustering method),逐个地合并子簇,直到期望的簇数量

以上简单的介绍了4种常用聚类算法的算法,下面我们就要过关斩将,选出最佳模型进行用户划分。

模型选取:

模型评定主要通过计算时间、聚类质量和综合评定的三个方面来评定模型,时间顾名思义就是计算所用时长,如果一个算法优秀但时间过于冗长,导致不能及时更新平台标签,这种算法也是不可取的;聚类质量就是模型聚类的好坏,主要用轮廓系数这个指标来衡量模型的质量。综合评定就是根据模型的优劣局限性等因素,并针对此次分析进行的综合评定。

计算时间:

我们通过对4种算法的计算时间进行排序,得出以下结果:

k-mediod 《 kohonen 《 两步 ≈ K-means

我们发现k-mediod计算时间过于冗长。因为k-mediod需要不断的找出每个点到其他所有点的距离的最小值来修正聚类中心,这大大加大了聚类收敛的时间。K-mediod对于大规模数据聚类消耗时间过长,只能适应较小规模的数值聚类,对于互金这种动则上百万用户的数据量来说是吃不消的,所以k-mediod被淘汰。

模型质量:

接下来,我们就对模型质量进行评估,利用spss modeler进行自动聚类快速处理,得到如下图。

自动聚类图

模型流程图

我们按照轮廓系数进行筛选(介于[-1,1]间,越接近1表示聚类结果越好),对于监督式学习,在训练完成后用准确率评价模型。但聚类属于无监督式学习,所以要用到凝聚和分离的轮廓评价模型的好坏。首先可以看出k-means(K=7)的轮廓系数为0.7,两步算法轮廓系数为0.614,kohonen为0.475。在这里有个小问题,为什么K-means的K值为7呢,大家都知道K-means的K值对聚类结果影响很大,我们不妨来做一个K值与轮廓系数图,就一目了然了,如下图。

K与轮廓系数关系图

在K《7时轮廓系数增长明显,当K《7时增长缓慢几乎保持不变,又知如果K值过大,会造成过度聚类。所以K=7时,即保证准确度又不会出现过度聚类的情况发生,所以K=7为最优值。

按照聚类质量分析,将k-means、k-mediod、两步和kohonen四种模型进行排序,结果如下:

K-means (0.7) 《 kohonen(0.57) 《 kmediod(0.56) 《 两步(0.405)

对模型综合分析:

K-means聚类分析:本次分析中,数据不存在噪音(数据预处理去噪)和凸型聚类问题,而且数据量超过百万,所以综上所述选取轮廓系数高,我们选择计算时间快,并且在此次分析中不受其自身局限性影响的K-means模型进行聚类分析。

选定K-means后,下面对平台用户投资行为进行分析,将现有人群分为7类(K=7,刚才已经对K的最优值选取进行分析),可以看到聚类结果概要图,如下图:

K-means模型结果概要图

分为以下7类人群:


聚类明细

最终将分类结果出数为EXCEL表,如下图:

导出表

至此,整个流程基本完毕,只需在数据库中对用户添加标签即可。

我们就把今天分析的过程来捋一捋:

用户投资偏好画像 《 聚类 《 选择模型 《 最优模型确立 《 聚类分析 《 得出结论 《 数据库打标签

正所谓磨刀不误砍柴工,我们把大部分的时间都用在选择最优模型上,在后期既能节省运算时间,又能保证计算的质量。今天就讲到这里,用户在其他维度也有很多标签, 比如生命周期标签、收益喜好标签等等,以后再跟大家分享。

写在后面:希望这篇文章可以帮助广大的互金运营人士,也能够让广大的互金用户了解平台运营方式,同时欢迎互金同行与爱好者一起交流学习,提出您宝贵的意见。



作者:姜頔

来源:网贷之家




未央精选

行业时事

北京将关闭全部比特币交易所

互金协会发文表态:比特币平台无合法依据

英国发布ICO和数字货币风险警告 摩根大通CEO炮轰数字货币

e租宝主犯丁宁被判无期徒刑 拉卡拉IPO审核被迫中止


案例分析

Hippo Insurance:用技术简化房屋保险购买服务

Nova Credit:提供移民在原国家的信用报告

Random Forest Capital:利用机器学习对每笔贷款进行再定价

十一贝:人工智能驱动下的保险行业整体解决方案


监管动态

传北京约谈比特币交易平台 发布虚拟货币交易所清理整治工作要求

上海网贷145条整改认定细则传出 禁止关联方融资

中国互金协会发布P2P存管规范征求意见稿

央行:ICO属非法公开融资,各类代币发行融资活动应当立即停止


深度观察

史上最大征信泄露,Equifax深陷危机,中国同行怕了吗?

P2P负责人亲述:未盈利的平台恐难熬过整改期

P2P网贷平台想要备案 为何推动起来会如此艰难?

互金从业者,如何识别并避免法律风险?


活动&荐书

《全球互联网金融商业模式:格局与发展》,你拿到手了吗?

清华五道口全球金融论坛:全阵容45位嘉宾观点集锦

未央海外游学计划启动!英国金融科技之旅等你报名

【GELP荐书】这是属于父辈的故事





清华大学五道口金融学院互联网实验室成立于2012年4月,是中国第一家专注于互联网金融领域研究的科研机构。

专业研究 | 商业模式 • 政策研究 • 行业分析

内容平台 | 未央网  "互联网金融"微信公众号iefinance

创业教育 | 清华大学中国创业者训练营 • 全球创业领袖项目(报名中!点击查看详情)


网站:未央网 http://www.weiyangx.com

免责声明:转载内容仅供读者参考。如您认为本公众号的内容对您的知识产权造成了侵权,请立即告知,我们将在第一时间核实并处理。

WeMedia(自媒体联盟)成员,其联盟关注人群超千万



登录查看更多
0

相关内容

最新《自动微分手册》77页pdf
专知会员服务
102+阅读 · 2020年6月6日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
看完后,别再说自己不懂用户画像了
R语言中文社区
15+阅读 · 2017年8月28日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
干货 :详解个性化推荐五大最常用算法
数据分析
6+阅读 · 2017年7月19日
用户画像之用户性别识别
Python技术博文
7+阅读 · 2017年7月7日
Conceptualize and Infer User Needs in E-commerce
Arxiv
3+阅读 · 2019年10月8日
Arxiv
6+阅读 · 2018年8月27日
VIP会员
相关资讯
【知识图谱】基于知识图谱的用户画像技术
产业智能官
102+阅读 · 2019年1月9日
干货 :基于用户画像的聚类分析
数据分析
22+阅读 · 2018年5月17日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
【大数据】如何用大数据构建精准用户画像?
产业智能官
12+阅读 · 2017年9月21日
认识个性化推荐系统:从推荐算法到产品冷启动
人人都是产品经理
6+阅读 · 2017年9月15日
看完后,别再说自己不懂用户画像了
R语言中文社区
15+阅读 · 2017年8月28日
有了场景和画像才懂用户
互联网er的早读课
6+阅读 · 2017年8月26日
干货 :详解个性化推荐五大最常用算法
数据分析
6+阅读 · 2017年7月19日
用户画像之用户性别识别
Python技术博文
7+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员