Clustering algorithms have long been the topic of research, representing the more popular side of unsupervised learning. Since clustering analysis is one of the best ways to find some clarity and structure within raw data, this paper explores a novel approach to \textit{k}-means clustering. Here we present a \textit{k}-means clustering algorithm that takes both the within cluster distance (WCD) and the inter cluster distance (ICD) as the distance metric to cluster the data into \emph{k} clusters pre-determined by the Calinski-Harabasz criterion in order to provide a more robust output for the clustering analysis. The idea with this approach is that by including both the measurement metrics, the convergence of the data into their clusters becomes solidified and more robust. We run the algorithm with some synthetically produced data and also some benchmark data sets obtained from the UCI repository. The results show that the convergence of the data into their respective clusters is more accurate by using both WCD and ICD measurement metrics. The algorithm is also better at clustering the outliers into their true clusters as opposed to the traditional \textit{k} means method. We also address some interesting possible research topics that reveal themselves as we answer the questions we initially set out to address.


翻译:聚类算法长期以来一直是研究的热点,代表了无监督学习中较为流行的方向。由于聚类分析是从原始数据中发现清晰结构与规律的最佳途径之一,本文探索了一种新颖的k均值聚类方法。我们提出了一种k均值聚类算法,该算法同时采用类内距离和类间距离作为距离度量,依据Calinski-Harabasz准则将数据划分为预先确定的k个簇,从而为聚类分析提供更稳健的结果。该方法的核心思想是通过结合两种距离度量,使数据向所属簇的收敛过程更加稳固和鲁棒。我们使用合成生成的数据以及从UCI数据库获取的基准数据集对该算法进行了测试。结果表明,通过同时使用WCD和ICD两种度量指标,数据向各自簇的收敛精度更高。与传统k均值方法相比,该算法能更准确地将离群点划分至其真实所属的簇。此外,我们在解决初始设定的研究问题时,还揭示了一些值得进一步探索的研究方向。

0
下载
关闭预览

相关内容

 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
专知会员服务
20+阅读 · 2020年12月9日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
18+阅读 · 2021年5月3日
专知会员服务
20+阅读 · 2020年12月9日
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员