如何评价无监督聚类算法

2017 年 7 月 7 日 人工智能头条 章华燕

作者:章华燕,金桥智慧科技算法工程师

原文:http://blog.csdn.net/u013709270/article/details/74276533


学过机器学习的小伙伴应该都很清楚:几乎所有的机器学习理论与实战教材里面都有非常详细的理论化的有监督分类学习算法的评价指标。例如:正确率、召回率、精准率、ROC曲线、AUC曲线。但是几乎没有任何教材上有明确的关于无监督聚类算法的评价指标!


那么学术界到底有没有成熟公认的关于无监督聚类算法的评价指标呢?本文就是为了解决大家的这个疑惑而写的,并且事先明确的告诉大家,关于无监督聚类算法结果好坏的评价指标不仅有,而且还挺多的。接下来我会一一详述!


有类标的情况


既然聚类是把一个包含若干文档的文档集合分成若干类,像上图如果聚类算法应该把文档集合分成3类,而不是2类或者5类,这就设计到一个如何评价聚类结果的问题。下面介绍几种聚类算法的评价指标,看下图:


如图,认为x代表一类文档,o代表一类文档,方框代表一类文档,完美的聚类显然是应该把各种不同的图形放入一类,事实上我们很难找到完美的聚类方法,各种方法在实际中难免有偏差,所以我们才需要对聚类算法进行评价看我们采用的方法是不是好的算法。


Purity方法


purity方法是极为简单的一种聚类评价方法,只需计算正确聚类的文档数占总文档数的比例:


 其中Ω={ω1,ω2,...,ωk} 是聚类的集合ωk表示第k个聚类的集合。C={c1,c2,...,cj}是文档集合,cj表示第j个文档。N表示文档总数。 


如上图的:



其中第一类正确的有5个,第二个4个,第三个3个,总文档数17。


purity方法的优势是方便计算,值在0~1之间,完全错误的聚类方法值为0,完全正确的方法值为1。同时,purity方法的缺点也很明显它无法对退化的聚类方法给出正确的评价,设想如果聚类算法把每篇文档单独聚成一类,那么算法认为所有文档都被正确分类,那么purity值为1!而这显然不是想要的结果。


RI方法(Rand index兰德指数)


RI方法实际上这是一种用排列组合原理来对聚类进行评价的手段,公式如下:


其中TP是指被聚在一类的两个文档被正确分类了,TN是只不应该被聚在一类的两个文档被正确分开了,FP只不应该放在一类的文档被错误的放在了一类,FN只不应该分开的文档被错误的分开了。对上图


其中C(n,m)是指在m中任选n个的组合数。


相似的方法可以计算出:

所以: 


F值方法


这是基于上述RI方法衍生出的一个方法,


RI方法有个特点就是把准确率和召回率看得同等重要,事实上有时候我们可能需要某一特性更多一点,这时候就适合F值方法。


无类标的情况


对于无类标的情况,没有唯一的评价指标。对于数据 凸分布 的情况我们只能通过 类内聚合度、类间低耦合 的原则来作为指导思想,如下如:



当然,有这些还不够,对于如下图所示的数据在N维空间中的不是 凸分布 的情况下,此时我们就需要采用另外的一些评价指标。典型的无监督聚类算法也很多,例如基于局部密度的LOF算法,DBSCAN算法等,在此种情况下的聚类效果就非常的优秀。



Compactness(紧密性)(CP)


CP计算每一个类各点到聚类中心的平均距离CP越低意味着类内聚类距离越近。著名的 K-Means 聚类算法就是基于此思想提出的。


缺点:没有考虑类间效果


Separation(间隔性)(SP)


SP计算 各聚类中心两两之间平均距离,SP越高意味类间聚类距离越远


缺点:没有考虑类内效果


Davies-Bouldin Index(戴维森堡丁指数)(分类适确性指标)(DB)(DBI)


DB计算 任意两类别的类内距离平均距离(CP)之和除以两聚类中心距离求最大值。DB越小意味着类内距离越小 同时类间距离越大


缺点:因使用欧式距离 所以对于环状分布 聚类评测很差


Dunn Validity Index (邓恩指数)(DVI)


DVI计算 任意两个簇元素的最短距离(类间)除以任意簇中的最大距离(类内)。 DVI越大意味着类间距离越大 同时类内距离越小


缺点:对离散点的聚类测评很高、对环状分布测评效果差


参考文献:

[1]Yanchi Liu, Zhongmou Li, Hui Xiong, Xuedong Gao, Junjie Wu: 

Understanding of Internal Clustering Validation Measures. 911-916

[2]http://blog.csdn.net/u012102306/article/details/52423074




7月22-23日,本年度中国人工智能技术会议最强音——2017 中国人工智能大会(CCAI 2017)即将在杭州国际会议中心拉开序幕。汇集超过40位学术带头人、8场权威专家主题报告、4场开放式专题研讨会、超过2000位人工智能专业人士将参与本次会议.

目前,大会 8 折优惠门票正在火热发售中,扫描下方二维码或点击【阅读原文】火速抢票。

登录查看更多
4

相关内容

专知会员服务
42+阅读 · 2020年7月7日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
85+阅读 · 2020年6月28日
最新《机器学习理论初探》概述
专知会员服务
42+阅读 · 2020年5月19日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
关于 K means 聚类算法,你需要知道这些东西
AI研习社
3+阅读 · 2018年8月19日
【干货】Python无监督学习的4大聚类算法
新智元
14+阅读 · 2018年5月26日
决策树
Datartisan数据工匠
4+阅读 · 2018年4月19日
数据科学家需要了解的5种聚类算法
论智
4+阅读 · 2018年4月7日
为什么『无监督集成学习』乏人问津?
AI研习社
10+阅读 · 2017年10月24日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
A Survey on Bayesian Deep Learning
Arxiv
60+阅读 · 2020年7月2日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
4+阅读 · 2019年4月3日
Arxiv
3+阅读 · 2017年7月6日
VIP会员
相关VIP内容
相关资讯
机器学习计算距离和相似度的方法
极市平台
10+阅读 · 2019年9月20日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
关于 K means 聚类算法,你需要知道这些东西
AI研习社
3+阅读 · 2018年8月19日
【干货】Python无监督学习的4大聚类算法
新智元
14+阅读 · 2018年5月26日
决策树
Datartisan数据工匠
4+阅读 · 2018年4月19日
数据科学家需要了解的5种聚类算法
论智
4+阅读 · 2018年4月7日
为什么『无监督集成学习』乏人问津?
AI研习社
10+阅读 · 2017年10月24日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
相关论文
Top
微信扫码咨询专知VIP会员