【技术贴】P2P运营手册：怎样摸透用户的投资产品偏好并打上标签

2017 年 10 月 1 日 互联网金融 姜頔

用户画像，想必运营的小伙伴们都非常熟悉，核心工作就是给用户打标签，以便后续更好执行后续营销策略与精细化营销。标签有多种，比如年龄、地域、收入等等。今天我们就用聚类方法来给用户打标签，根据用户在平台的购买产品情况来判断这个人的购买偏好，加之以标签，并针对各类用户未来制定营销计划。

我们会用4种常用聚类模型进行分析，并最终对这4种模型进行综合评定，选出最佳模型进行聚类分析。这4种模型分别是：K-mediod、K-means、两步法和kohonen。

下面我们先对这四种模型进行简单的介绍：

模型一 k-means：

以欧氏距离作为相似度测量的硬聚类算法，算是聚类算法中的“一哥”，本人也经常使用，在我之前文章中也多次提及，算法这里就不在赘述了。

模型二 k-mediod：

k-mediod和Kmeans算法核心思想大同小异，但是最大的不同是在修正聚类中心的时候，k-mediod是计算类簇中除开聚类中心的每点到其他所有点的聚类的最小值来优化新的聚类中心。因此，相对于K-means，k-mediod优点在于对噪声和孤立点不敏感。缺点是计算时间过于冗长。K-mediod需要不断的找出每个点到其他所有点的距离的最小值来修正聚类中心，这大大加大了聚类收敛的时间。

模型三 kohonen：

Kohonen网络是自组织竞争型神经网络的一种，该网络为无监督学习网络，能够识别环境特征并自动聚类

Kohonen神经网络算法工作机理是在网络学习过程中，当样本输入网络时，竞争层上的神经元计算输入样本与竞争层神经元权值之间的欧几里德距离，距离最小的神经元为获胜神经元。调整获胜神经元和相邻神经元权值，使获得神经元及周边权值靠近该输入样本。通过反复训练，最终各神经元的连接权值具有一定的分布，该分布把数据之间的相似性组织到代表各类的神经元上，使同类神经元具有相近的权系数，不同类的神经元权系数差别明显

模型四两步：如其名，就两步!

第一步打开程序，第二部出数完事!开玩笑…

第一步预聚类阶段：采用了BIRCH算法中的CF树生长的思想，随后逐个读取数据集中数据点，在生成CF树的同时，预先聚类密集区域的数据点，形成子簇。

第二部聚类：以第一步形成的子簇为对象，利用凝聚法(agglomerative hierarchical clustering method)，逐个地合并子簇，直到期望的簇数量

以上简单的介绍了4种常用聚类算法的算法，下面我们就要过关斩将，选出最佳模型进行用户划分。

模型选取：

模型评定主要通过计算时间、聚类质量和综合评定的三个方面来评定模型，时间顾名思义就是计算所用时长，如果一个算法优秀但时间过于冗长，导致不能及时更新平台标签，这种算法也是不可取的;聚类质量就是模型聚类的好坏，主要用轮廓系数这个指标来衡量模型的质量。综合评定就是根据模型的优劣局限性等因素，并针对此次分析进行的综合评定。

计算时间：

我们通过对4种算法的计算时间进行排序，得出以下结果：

k-mediod 《 kohonen 《两步 ≈ K-means

我们发现k-mediod计算时间过于冗长。因为k-mediod需要不断的找出每个点到其他所有点的距离的最小值来修正聚类中心，这大大加大了聚类收敛的时间。K-mediod对于大规模数据聚类消耗时间过长，只能适应较小规模的数值聚类，对于互金这种动则上百万用户的数据量来说是吃不消的，所以k-mediod被淘汰。

模型质量：

接下来，我们就对模型质量进行评估，利用spss modeler进行自动聚类快速处理，得到如下图。

自动聚类图

模型流程图

我们按照轮廓系数进行筛选(介于[-1，1]间，越接近1表示聚类结果越好)，对于监督式学习，在训练完成后用准确率评价模型。但聚类属于无监督式学习，所以要用到凝聚和分离的轮廓评价模型的好坏。首先可以看出k-means(K=7)的轮廓系数为0.7，两步算法轮廓系数为0.614，kohonen为0.475。在这里有个小问题，为什么K-means的K值为7呢，大家都知道K-means的K值对聚类结果影响很大，我们不妨来做一个K值与轮廓系数图，就一目了然了，如下图。