浅析Axiomatic Clustering算法

2017 年 9 月 15 日 全球人工智能

“全球人工智能”拥有十多万AI产业用户,10000多名AI技术专家。主要来自:北大,清华,中科院,麻省理工,卡内基梅隆,斯坦福,哈佛,牛津,剑桥...以及谷歌,腾讯,百度,脸谱,微软,阿里,海康威视,英伟达......等全球名校和名企。


-免费加入AI高管投资群>>

-免费加入AI技术专家群>>

来自:我爱计算机

推荐语:著名计算机学家、数学家、HITS算法发明人 Jon Kleinberg 曾在《An Impossibility Theorem for Clustering 》论证过“聚不准”定理,即没有一个聚类方法能同时满足两个以上的性质。该定理深刻揭示了各种聚类算法背后的局限性。本篇文章很到位地为大家进行了科普,强烈推荐。

文章来源:https://zhuanlan.zhihu.com/p/29118501

今天我们将和大家一起来讨论下算法Axiomatic Clustering

一般解决一个clustering问题,首先我们需要对structure of data 做一些假设。其中有统计模型比如Gaussian Mixture Model,也有非统计模型比如strict separation property(target clustering中同类间的距离比非同类间的距离小)。但是我们能不能对于structure of data不做任何假设而是只考虑clustering algorithm自身的性质呢?

Axiomatic clustering 讨论的就是这个问题。 我们把clustering algorithm看成一个函数f(X,d)。它把数据的标号X和距离d作为输入,它的输出就是在X上的一个分类(partition)。那么我们希望f都有哪些性质呢?

首先,很自然的我们希望算法不会因为数据间距离的伸缩而改变分类结果。所以我们希望f有Scale Invariance的性质(或者说公理):

Scale Invariance:对于任意 α>0,我们有 f(X,d)=f(X,αd)

其次,我们不希望算法对于任意的距离d, 永远只输出某些特定的分类(partition)。所以我们希望f有Richness的性质:

Richness:对于任意一种partition γ,都存在一个距离d,使得 f(X,d)=γ

最后,我们希望算法的分类有某种一致性(Consistency):

Consistency:对于任意两个距离d和d′,其中γ=f(X,d)。 如果对于γ中任意两个同类的点i和j,我们有d(i,j)≥d′(i,j),而任意两个不同类的点i和j,我们有d(i,j)≤d′(i,j),那么我们有f(X,d)=f(X, d′)

看上去这三条在参考[1]中提出的公理要求的并不多,我们可以较容易地构造出算法满足其中任意两条,然而事实上,不存在任何一个算法能满足全部三条。而且平时用的k-centroid-based
clustering算法比如k-mean,k-median,它们不仅不满足Richness的条件(因为已经限定了k个分类),同时也不满足Consistency的性质。

那么能不能用“更弱”一点的公理来替代原本的三条,而使得至少有算法能满足所有的公理呢? 事实上,如果我们把Richness改成k-Richness:

k-Richness:对于任意一种分成k个类的partition γ,都存在一个距离d, 使得 f(X,d)=γ

那么Single Linkage Algorithm 就满足替换后的三条,即Scale Invariance, k-Richness 和 Consistency。如果我们并不知道要分成多少个类,所以想尽可能保留Richness的性质,我们又该如何呢? 事实上,Consistency的条件可能太强,我们可以替换成如下较弱的一致性:

Refinement-Consistency:对于任意两个距离d和d′,其中γ=f(X,d), γ′=f(X,d′)。如果对于γ中任意两个同类的点i和j,我们有d(i,j)≥d′(i,j),而任意两个不同类的点i和j,我们有d(i,j)≤d′(i,j),那么我们有 γ′中的任意一个类C′,都存在γ中的一个类C,使得C′属于C

那么我们可以构造出算法满足Scale Invariance,Refinement-Consistency和Richenss除去最简单的一个partition , 其中是把每个数据点都单独分成一类(n个数据点就有n个类)。

讨论到这儿,你可能会问除了之前的三条公理及其变化,还有什么公理我们可以提出然后研究的呢?我们是否能找出一组公理,不仅仅存在算法能满足所有性质,同时恰恰仅有这一类算法满足这组公理?如果有这样的关系,我们是否就可以比较且更好地理解算法之间的不同?

参考[2]中给出了部分解答。我们可以考虑以下两条公理:

Order Consistency:考虑所有(n 2)两点间的距离,如果他们的大小排序在距离d和距离d’上是相同的,那么f(X,d)=f(X, d′)。

MST-Coherence:如果两个距离d和d’所对应的MST(minimal spanning tree,最小生成树)是相同的,那么f(X,d)=f(X, d′)

参考[2]中证明了Single Linkage Algorithm是唯一的一个算法能满足如下5条公理:Scale Invariance,k-Richness,Consistency,Order Consistency和MST-Coherence。同时我们也知道MST的确和Single Linkage Algorithm关系密切。可惜的是,我们还没有找到有关其他算法这样的对应关系。

Axiomatic Clustering 在最低的限制下,给出了一个很数学化的对clustering algorithm的理解,可能也因此限制了其应用和拓展,我们对这一方面的理解依然停留在较为简单的算法上。

Reference:

[1] Jon Kleinberg. An impossibility theorem for clustering. Advances in neural information processing systems, 2003.

[2] Reza Bosagh Zadeh and Shai Ben-David. A uniqueness theorem for clustering. Proceedings of the twenty-fifth conference on uncertainty in artificial intelligence. AUAI Press, 2009.

转载:《浅析Axiomatic Clustering算法 | 我爱计算机》

热门文章推荐

2017年7大最受欢迎的AI编程语言:Python第一!

重磅|中国首家人工智能技术学院在京揭牌开学!

厉害 | 南京大学周志华教授当选欧洲科学院外籍院士!

5个月市值涨了1200亿,首次突破3100亿市值!

华为扔下这枚“AI芯弹”,全世界的智能手机都卡(慢)死了!

用57行代码搞定花8000万美元采购车牌识别项目

厉害|百度28位离职技术大牛和他们创建的AI公司!

一AI工程师下载200万GB色情内容,只为学习Python!

推荐|变形卷积核、可分离卷积?CNN中十大操作!

她:13岁造飞机,17岁进MIT,22岁到哈佛读博!

登录查看更多
2

相关内容

【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
免费|机器学习算法Python实现
全球人工智能
5+阅读 · 2018年1月2日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
动手写机器学习算法:SVM支持向量机(附代码)
七月在线实验室
12+阅读 · 2017年12月5日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
支持向量机分类实战
全球人工智能
4+阅读 · 2017年10月18日
机器学习(7)之感知机python实现
机器学习算法与Python学习
4+阅读 · 2017年7月23日
LibRec 每周算法:Collaborative Metric Learning (WWW'17)
LibRec智能推荐
6+阅读 · 2017年7月4日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关VIP内容
【清华大学】图随机神经网络,Graph Random Neural Networks
专知会员服务
154+阅读 · 2020年5月26日
相关资讯
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
免费|机器学习算法Python实现
全球人工智能
5+阅读 · 2018年1月2日
动手写机器学习算法:异常检测 Anomaly Detection
七月在线实验室
11+阅读 · 2017年12月8日
动手写机器学习算法:SVM支持向量机(附代码)
七月在线实验室
12+阅读 · 2017年12月5日
一文解读聚类中的两种流行算法
量子位
6+阅读 · 2017年11月20日
支持向量机分类实战
全球人工智能
4+阅读 · 2017年10月18日
机器学习(7)之感知机python实现
机器学习算法与Python学习
4+阅读 · 2017年7月23日
LibRec 每周算法:Collaborative Metric Learning (WWW'17)
LibRec智能推荐
6+阅读 · 2017年7月4日
Top
微信扫码咨询专知VIP会员