Clustering in high-dimensions poses many statistical challenges. While traditional distance-based clustering methods are computationally feasible, they lack probabilistic interpretation and rely on heuristics for estimation of the number of clusters. On the other hand, probabilistic model-based clustering techniques often fail to scale and devising algorithms that are able to effectively explore the posterior space is an open problem. Based on recent developments in Bayesian distance-based clustering, we propose a hybrid solution that entails defining a likelihood on pairwise distances between observations. The novelty of the approach consists in including both cohesion and repulsion terms in the likelihood, which allows for cluster identifiability. This implies that clusters are composed of objects which have small "dissimilarities" among themselves (cohesion) and similar dissimilarities to observations in other clusters (repulsion). We show how this modelling strategy has interesting connection with existing proposals in the literature as well as a decision-theoretic interpretation. The proposed method is computationally efficient and applicable to a wide variety of scenarios. We demonstrate the approach in a simulation study and an application in digital numismatics.


翻译:虽然传统的基于远程的集群方法在计算上是可行的,但它们缺乏概率解释,在估计集群数量时依赖超常性来估计。另一方面,基于模型的集群方法往往没有规模化和设计能够有效探索后方空间的算法,这是一个尚未解决的问题。根据巴伊西亚远程集群的最新发展,我们提出了一个混合解决方案,其中要求确定观测之间对称距离的可能性。该方法的新颖性在于在可能性中包括凝聚力和反向术语,从而允许群集识别性。这意味着集群由彼此之间“差异”小的物体组成(组合),与其他群中观测(反响)的类似差异组成。我们展示了这一建模战略如何与文献中的现有建议以及决策理论解释有有趣的联系。拟议方法具有计算效率,并适用于各种各样的情景。我们在模拟研究中展示了该方法,并在数字纳米学中应用。

0
下载
关闭预览

相关内容

专知会员服务
47+阅读 · 2021年4月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
专知会员服务
60+阅读 · 2020年3月19日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
VIP会员
相关VIP内容
专知会员服务
47+阅读 · 2021年4月24日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
52+阅读 · 2020年9月7日
专知会员服务
60+阅读 · 2020年3月19日
【快讯】CVPR2020结果出炉,1470篇上榜, 你的paper中了吗?
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员