High-dimensional data clustering has become and remains a challenging task for modern statistics and machine learning, with a wide range of applications. We consider in this work the powerful discriminative latent mixture model, and we extend it to the Bayesian framework. Modeling data as a mixture of Gaussians in a low-dimensional discriminative subspace, a Gaussian prior distribution is introduced over the latent group means and a family of twelve submodels are derived considering different covariance structures. Model inference is done with a variational EM algorithm, while the discriminative subspace is estimated via a Fisher-step maximizing an unsupervised Fisher criterion. An empirical Bayes procedure is proposed for the estimation of the prior hyper-parameters, and an integrated classification likelihood criterion is derived for selecting both the number of clusters and the submodel. The performances of the resulting Bayesian Fisher-EM algorithm are investigated in two thorough simulated scenarios, regarding both dimensionality as well as noise and assessing its superiority with respect to state-of-the-art Gaussian subspace clustering models. In addition to standard real data benchmarks, an application to single image denoising is proposed, displaying relevant results. This work comes with a reference implementation for the R software in the FisherEM package accompanying the paper.


翻译:对现代统计和机器学习来说,高维数据集群已成为一项具有挑战性的任务,现在仍然是一项具有广泛应用的艰巨任务。我们认为,在这项工作中,有强大的歧视性潜在混合模型,我们将其推广到巴伊西亚框架。建模数据是高斯人在一个低维歧视子空间中的混合体,一个高斯人以前分布在潜层中,一个由12个子模型组成的组合在考虑不同的共变结构的情况下产生。模型的推论采用一个变异的EM算法,而歧视子空间则通过一个渔业步骤,最大限度地扩大一个不受监督的渔业标准来估计。一个经验性贝亚斯程序是用来估计先前的超参数的。一个经验性贝亚斯程序是用来估算先前的超参数,而一个综合分类可能性标准标准标准是用于选择组数和亚型模型。由此产生的巴伊斯人Fisherishian-EM算法的性能在两种彻底的模拟假设中进行了调查,其中既涉及维度,也涉及噪音,也涉及对它相对于状态高斯次空间组合的优越性进行估测算。除了标准的实际数据基准外,在显示单一图像执行结果的软件的软件应用中,一个相关的软件应用。

0
下载
关闭预览

相关内容

剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
专知会员服务
42+阅读 · 2020年12月18日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【干货】Python无监督学习的4大聚类算法
新智元
14+阅读 · 2018年5月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年2月10日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
25+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【干货】Python无监督学习的4大聚类算法
新智元
14+阅读 · 2018年5月26日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员