如何评价无监督聚类算法

会员服务 ·

如何评价无监督聚类算法

2017 年 7 月 7 日 人工智能头条 章华燕

作者：章华燕，金桥智慧科技算法工程师

原文：http://blog.csdn.net/u013709270/article/details/74276533

学过机器学习的小伙伴应该都很清楚：几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如：正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标！

那么学术界到底有没有成熟公认的关于无监督聚类算法的评价指标呢？本文就是为了解决大家的这个疑惑而写的，并且事先明确的告诉大家，关于无监督聚类算法结果好坏的评价指标不仅有，而且还挺多的。接下来我会一一详述！

有类标的情况

既然聚类是把一个包含若干文档的文档集合分成若干类，像上图如果聚类算法应该把文档集合分成3类，而不是2类或者5类，这就设计到一个如何评价聚类结果的问题。下面介绍几种聚类算法的评价指标，看下图：

如图，认为x代表一类文档，o代表一类文档，方框代表一类文档，完美的聚类显然是应该把各种不同的图形放入一类，事实上我们很难找到完美的聚类方法，各种方法在实际中难免有偏差，所以我们才需要对聚类算法进行评价看我们采用的方法是不是好的算法。

Purity方法

purity方法是极为简单的一种聚类评价方法，只需计算正确聚类的文档数占总文档数的比例：

其中Ω={ω1,ω2,...,ωk} 是聚类的集合ωk表示第k个聚类的集合。C={c1,c2,...,cj}是文档集合，cj表示第j个文档。N表示文档总数。

如上图的:

其中第一类正确的有5个，第二个4个，第三个3个，总文档数17。

purity方法的优势是方便计算，值在0～1之间，完全错误的聚类方法值为0，完全正确的方法值为1。同时，purity方法的缺点也很明显它无法对退化的聚类方法给出正确的评价，设想如果聚类算法把每篇文档单独聚成一类，那么算法认为所有文档都被正确分类，那么purity值为1！而这显然不是想要的结果。

RI方法(Rand index兰德指数)

RI方法实际上这是一种用排列组合原理来对聚类进行评价的手段，公式如下：

其中TP是指被聚在一类的两个文档被正确分类了，TN是只不应该被聚在一类的两个文档被正确分开了，FP只不应该放在一类的文档被错误的放在了一类，FN只不应该分开的文档被错误的分开了。对上图

其中C(n,m)是指在m中任选n个的组合数。

相似的方法可以计算出:

所以:

F值方法

这是基于上述RI方法衍生出的一个方法，

RI方法有个特点就是把准确率和召回率看得同等重要，事实上有时候我们可能需要某一特性更多一点，这时候就适合F值方法。

无类标的情况

对于无类标的情况，没有唯一的评价指标。对于数据凸分布的情况我们只能通过类内聚合度、类间低耦合的原则来作为指导思想，如下如：

当然，有这些还不够，对于如下图所示的数据在N维空间中的不是凸分布的情况下，此时我们就需要采用另外的一些评价指标。典型的无监督聚类算法也很多，例如基于局部密度的LOF算法，DBSCAN算法等，在此种情况下的聚类效果就非常的优秀。

Compactness(紧密性)(CP)

CP计算每一个类各点到聚类中心的平均距离CP越低意味着类内聚类距离越近。著名的 K-Means 聚类算法就是基于此思想提出的。

缺点：没有考虑类间效果

Separation(间隔性)(SP)

SP计算各聚类中心两两之间平均距离，SP越高意味类间聚类距离越远

缺点：没有考虑类内效果

Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)

DB计算任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值。DB越小意味着类内距离越小同时类间距离越大

缺点：因使用欧式距离所以对于环状分布聚类评测很差

Dunn Validity Index (邓恩指数)(DVI)

DVI计算任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)。 DVI越大意味着类间距离越大同时类内距离越小

缺点：对离散点的聚类测评很高、对环状分布测评效果差

参考文献：

[1]Yanchi Liu, Zhongmou Li, Hui Xiong, Xuedong Gao, Junjie Wu:

Understanding of Internal Clustering Validation Measures. 911-916

[2]http://blog.csdn.net/u012102306/article/details/52423074

7月22-23日，本年度中国人工智能技术会议最强音——2017 中国人工智能大会（CCAI 2017）即将在杭州国际会议中心拉开序幕。汇集超过40位学术带头人、8场权威专家主题报告、4场开放式专题研讨会、超过2000位人工智能专业人士将参与本次会议.

目前，大会 8 折优惠门票正在火热发售中，扫描下方二维码或点击【阅读原文】火速抢票。

登录查看更多

相关内容

聚类算法

关注 20

【ICML2020】图神经网络谱聚类

专知会员服务

43+阅读 · 2020年7月7日

最新《机器学习理论初探》概述

专知会员服务

48+阅读 · 2020年5月19日

国科大UCAS胡包钢教授《信息论与机器学习》课程第六讲：信息指标与拒识分类评价

专知会员服务

62+阅读 · 2020年3月23日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

机器学习计算距离和相似度的方法

极市平台

10+阅读 · 2019年9月20日

【干货】Python无监督学习的4大聚类算法

新智元

14+阅读 · 2018年5月26日

数据科学家需要了解的5种聚类算法

论智

5+阅读 · 2018年4月7日

为什么『无监督集成学习』乏人问津？

AI研习社

10+阅读 · 2017年10月24日

机器学习之确定最佳聚类数目的10种方法

炼数成金订阅号

13+阅读 · 2017年10月12日

S$^\mathbf{4}$L: Self-Supervised Semi-Supervised Learning

Arxiv

5+阅读 · 2019年5月9日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

DSGAN: Generative Adversarial Training for Distant Supervision Relation Extraction

Arxiv

15+阅读 · 2018年5月24日

A Study of Recent Contributions on Information Extraction

Arxiv

6+阅读 · 2018年3月15日

Dr.VAE: Drug Response Variational Autoencoder

Arxiv

3+阅读 · 2017年7月6日

VIP会员