机器学习(26)之K-Means实战与调优详解

会员服务 ·

机器学习(26)之K-Means实战与调优详解

2017 年 11 月 19 日 机器学习算法与Python学习

微信公众号

关键字全网搜索最新排名

【机器学习算法】：排名第一

【机器学习】：排名第一

【Python】：排名第三

【算法】：排名第四

前言

在K-Means聚类算法原理（机器学习(25)之K-Means聚类算法详解）中对K-Means的原理做了总结，本文来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。

K-Means类概述

在scikit-learn中，包括两个K-Means的算法，一个是传统的K-Means算法，对应的类是KMeans。另一个是基于采样的Mini Batch K-Means算法，对应的类是MiniBatchKMeans。一般来说，使用K-Means的算法调参是比较简单的。用KMeans类的话，一般要注意的仅仅就是k值的选择，即参数n_clusters；如果是用MiniBatchKMeans的话，也仅仅多了需要注意调参的参数batch_size，即我们的Mini Batch的大小。当然KMeans类和MiniBatchKMeans类可以选择的参数还有不少，但是大多不需要怎么去调参。

K-Means类主要参数

KMeans类的主要参数有：

1) n_clusters: 即k值，一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。

2）max_iter： 最大的迭代次数，一般如果是凸数据集的话可以不管这个值，如果数据集不是凸的，可能很难收敛，此时可以指定最大的迭代次数让算法可以及时退出循环。

3）n_init：用不同的初始化质心运行算法的次数。由于K-Means是结果受初始值影响的局部最优的迭代算法，因此需要多跑几次以选择一个较好的聚类效果，默认是10，一般不需要改。如果你的k值较大，则可以适当增大这个值。

4）init： 即初始值选择的方式，可以为完全随机选择'random',优化过的'k-means++'或者自己指定初始化的k个质心。一般建议使用默认的'k-means++'。

5）algorithm：有“auto”, “full” or “elkan”三种选择。"full"就是我们传统的K-Means算法， “elkan”是（机器学习(25)之K-Means聚类算法详解）原理篇讲的elkan K-Means算法。默认的"auto"则会根据数据值是否是稀疏的，来决定如何选择"full"和“elkan”。一般数据是稠密的，那么就是 “elkan”，否则就是"full"。一般来说建议直接用默认的"auto"

MiniBatchKMeans类主要参数

MiniBatchKMeans类的主要参数比KMeans类稍多，主要有：

1) n_clusters: 即k值，和KMeans类的n_clusters意义一样。

2）max_iter：最大的迭代次数， 和KMeans类的max_iter意义一样。

3）n_init：用不同的初始化质心运行算法的次数。这里和KMeans类意义稍有不同，KMeans类里的n_init是用同样的训练集数据来跑不同的初始化质心从而运行算法。而MiniBatchKMeans类的n_init则是每次用不一样的采样数据集来跑不同的初始化质心运行算法。

4）batch_size：即用来跑Mini Batch KMeans算法的采样集的大小，默认是100.如果发现数据集的类别较多或者噪音点较多，需要增加这个值以达到较好的聚类效果。

5）init：即初始值选择的方式，和KMeans类的init意义一样。

6）init_size: 用来做质心初始值候选的样本个数，默认是batch_size的3倍，一般用默认值就可以了。

7）reassignment_ratio: 某个类别质心被重新赋值的最大次数比例，这个和max_iter一样是为了控制算法运行时间的。这个比例是占样本总数的比例，乘以样本总数就得到了每个类别质心可以重新赋值的次数。如果取值较高的话算法收敛时间可能会增加，尤其是那些暂时拥有样本数较少的质心。默认是0.01。如果数据量不是超大的话，比如1w以下，建议使用默认值。如果数据量超过1w，类别又比较多，可能需要适当减少这个比例值。具体要根据训练集来决定。

8）max_no_improvement：即连续多少个Mini Batch没有改善聚类效果的话，就停止算法，和reassignment_ratio， max_iter一样是为了控制算法运行时间的。默认是10.一般用默认值就足够了。

K值的评估标准

不像监督学习的分类问题和回归问题，无监督聚类没有样本输出，也就没有比较直接的聚类评估方法。但是可以从簇内的稠密程度和簇间的离散程度来评估聚类的效果。常见的方法有轮廓系数Silhouette Coefficient和Calinski-Harabasz Index。个人比较喜欢Calinski-Harabasz Index，这个计算简单直接，得到的Calinski-Harabasz分数值s越大则聚类效果越好。Calinski-Harabasz分数值s的数学计算公式是：

其中m为训练集样本数，k为类别数。Bk为类别之间的协方差矩阵，Wk为类别内部数据的协方差矩阵。tr为矩阵的迹。也就是说，类别内部数据的协方差越小越好，类别之间的协方差越大越好，这样的Calinski-Harabasz分数会高。在scikit-learn中， Calinski-Harabasz Index对应的方法是metrics.calinski_harabaz_score.

应用实例

用一个实例来讲解用KMeans类和MiniBatchKMeans类来聚类，观察在不同的k值下Calinski-Harabasz分数。

首先随机创建一些二维数据作为训练集，选择二维特征数据，主要是方便可视化。代码如下：

import numpy as np

import matplotlib.pyplot as plt

%matplotlib inline

from sklearn.datasets.samples_generator import make_blobs

# X为样本特征，Y为样本簇类别，共1000个样本，每个样本4个特征，共4个簇，簇中心在[-1,-1], [0,0],[1,1], [2,2]，簇方差分别为[0.4, 0.2, 0.2]

X, y = make_blobs(n_samples=1000, n_features=2, centers=[[-1,-1], [0,0], [1,1], [2,2]], cluster_std=[0.4, 0.2, 0.2, 0.2],

random_state =9)

plt.scatter(X[:, 0], X[:, 1], marker='o')

plt.show()

现在用K-Means聚类方法来做聚类，首先选择k=2，代码如下：

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=2, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

k=2聚类的效果图输出如下：

看看用Calinski-Harabasz Index评估的聚类分数:

from sklearn import metrics
metrics.calinski_harabaz_score(X, y_pred)

输出如下：

3116.1706763322227

现在k=3来看看聚类效果，代码如下：

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=3, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()　　

k=3聚类的效果图输出如下：

用Calinski-Harabaz Index评估的k=3时候聚类分数:

from sklearn import metrics
metrics.calinski_harabaz_score(X, y_pred)

输出如下：

2931.625030199556

可见此时k=3的聚类分数比k=2还差。

现在看看k=4时候的聚类效果：

from sklearn.cluster import KMeans
y_pred = KMeans(n_clusters=4, random_state=9).fit_predict(X)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

k=4聚类的效果图输出如下：

用Calinski-Harabasz Index评估的k=4时候聚类分数:

from sklearn import metrics
metrics.calinski_harabaz_score(X, y_pred)

输出如下：

5924.050613480169

可见k=4的聚类分数比k=2和k=3都要高，这也符合我们的预期，我们的随机数据集也就是4个簇。当特征维度大于2，我们无法直接可视化聚类效果来肉眼观察时，用Calinski-Harabaz Index评估是一个很实用的方法。

再看看用MiniBatchKMeans的效果，将batch size设置为200. 由于4个簇都是凸的，所以其实batch size的值只要不是非常的小，对聚类的效果影响不大。对于k=2,3,4,5对应的输出图为：

可见使用MiniBatchKMeans的聚类效果也不错，当然由于使用Mini Batch的原因，同样是k=4最优，KMeans类的Calinski-Harabasz Index分数为5924.05,而MiniBatchKMeans的分数稍微低一些，为5921.45。

K-Means小结

优点

1）原理比较简单，实现也是很容易，收敛速度快。

2）聚类效果较优。

3）算法的可解释度比较强。

4）主要需要调参的参数仅仅是簇数k。

缺点

1）K值的选取不好把握

2）对于不是凸的数据集比较难收敛

3）如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳。

4）采用迭代方法，得到的结果只是局部最优。

5）对噪音和异常点比较的敏感。

欢迎分享给他人让更多的人受益

参考：

周志华《机器学习》
Neural Networks and Deep Learning by By Michael Nielsen
博客园
http://www.cnblogs.com/pinard/p/6164214.html
李航《统计学习方法》
Deep Learning, book by Ian Goodfellow, Yoshua Bengio, and Aaron Courville

近期热文

干货 | 台大“一天搞懂深度学习”课程PPT（下载方式见文末！！）

程序猿媳妇儿注意事项！（文末高能）

干货 | 深度学习之卷积神经网络(CNN)的模型结构

机器学习(25)之K-Means聚类算法详解

精心整理 | 绝对干货，你值的拥有！

加我微信：guodongwe1991,备注姓名-单位-研究方向（加入微信机器学习交流1群）

广告、商业合作

请加微信：guodongwe1991

喜欢，别忘关注~

帮助你在AI领域更好的发展，期待与你相遇！

登录查看更多

相关内容

K-均值

关注 0

【干货书】面向工程师的机器学习简介：理论、算法、概念全覆盖，206页pdf

专知会员服务

113+阅读 · 2020年6月13日

Sklearn 与 TensorFlow 机器学习实用指南,385页pdf

专知会员服务

131+阅读 · 2020年3月15日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

机器学习(30)之线性判别分析(LDA)原理详解

机器学习算法与Python学习

11+阅读 · 2017年12月6日

机器学习(29)之奇异值分解SVD原理与应用详解

机器学习算法与Python学习

6+阅读 · 2017年11月30日

机器学习(28)【降维】之sklearn中PCA库讲解与实战

机器学习算法与Python学习

8+阅读 · 2017年11月27日

机器学习(27)【降维】之主成分分析(PCA)详解

机器学习算法与Python学习

9+阅读 · 2017年11月22日

BAT题库 | 机器学习面试1000题系列（第196~200题）

七月在线实验室

17+阅读 · 2017年11月16日

Reasoning on Knowledge Graphs with Debate Dynamics

Arxiv

14+阅读 · 2020年1月2日

Efficiently Embedding Dynamic Knowledge Graphs

Arxiv

14+阅读 · 2019年10月15日

GREASE: A Generative Model for Relevance Search over Knowledge Graphs

Arxiv

4+阅读 · 2019年10月11日

Embedding Logical Queries on Knowledge Graphs

Arxiv

3+阅读 · 2019年2月19日

Twitter Sentiment Analysis

Arxiv

5+阅读 · 2015年9月14日

VIP会员