A parametric cluster model is a statistical model providing geometric insights onto the points defining a cluster. The {\em spherical cluster model} (SC) approximates a finite point set $P\subset \mathbb{R}^d$ by a sphere $S(c,r)$ as follows. Taking $r$ as a fraction $η\in(0,1)$ (hyper-parameter) of the std deviation of distances between the center $c$ and the data points, the cost of the SC model is the sum over all data points lying outside the sphere $S$ of their power distance with respect to $S$. The center $c$ of the SC model is the point minimizing this cost. Note that $η=0$ yields the celebrated center of mass used in KMeans clustering. We make three contributions. First, we show fitting a spherical cluster yields a strictly convex but not smooth combinatorial optimization problem. Second, we present an exact solver using the Clarke gradient on a suitable stratified cell complex defined from an arrangement of hyper-spheres. Finally, we present experiments on a variety of datasets ranging in dimension from $d=9$ to $d=10,000$, with two main observations. First, the exact algorithm is orders of magnitude faster than BFGS based heuristics for datasets of small/intermediate dimension and small values of $η$, and for high dimensional datasets (say $d>100$) whatever the value of $η$. Second, the center of the SC model behave as a parameterized high-dimensional median. The SC model is of direct interest for high dimensional multivariate data analysis, and the application to the design of mixtures of SC will be reported in a companion paper.


翻译:参数化聚类模型是一种统计模型,能够为定义聚类的点提供几何视角。球形聚类模型(SC)通过球面$S(c,r)$近似有限点集$P\subset \mathbb{R}^d$,具体方式如下:取半径$r$为距离中心$c$与数据点之间距离标准差的某个比例$η\in(0,1)$(超参数),SC模型的代价函数定义为所有位于球面$S$外部的数据点相对于$S$的幂距离之和。SC模型的中心$c$是使该代价最小化的点。值得注意的是,当$η=0$时,该模型退化为KMeans聚类中广泛使用的质心。本文作出三点贡献:首先,我们证明拟合球形聚类会产生一个严格凸但非光滑的组合优化问题;其次,我们提出一种精确求解器,利用在由超球面排列定义的适当分层单元复形上的Clarke梯度进行求解;最后,我们在维度范围从$d=9$到$d=10,000$的多种数据集上进行实验,得到两个主要观察结果:第一,对于中小维度数据集及较小$η$值的情况,以及高维数据集(如$d>100$)无论$η$取值如何,该精确算法比基于BFGS的启发式方法快数个数量级;第二,SC模型的中心表现出参数化高维中位数的特性。该模型对高维多变量数据分析具有直接应用价值,其在SC混合模型设计中的应用将在后续论文中报告。

0
下载
关闭预览

相关内容

【ICML2025】生成模型中潜空间的Hessian几何结构
专知会员服务
17+阅读 · 6月15日
【NeurIPS2022】黎曼扩散模型
专知会员服务
43+阅读 · 2022年9月15日
专知会员服务
50+阅读 · 2021年6月2日
专知会员服务
43+阅读 · 2020年7月7日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
卷积神经网络四种卷积类型
炼数成金订阅号
18+阅读 · 2019年4月16日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关VIP内容
【ICML2025】生成模型中潜空间的Hessian几何结构
专知会员服务
17+阅读 · 6月15日
【NeurIPS2022】黎曼扩散模型
专知会员服务
43+阅读 · 2022年9月15日
专知会员服务
50+阅读 · 2021年6月2日
专知会员服务
43+阅读 · 2020年7月7日
相关资讯
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【ICML2020】图神经网络谱聚类
专知
10+阅读 · 2020年7月7日
卷积神经网络四种卷积类型
炼数成金订阅号
18+阅读 · 2019年4月16日
CNN 反向传播算法推导
统计学习与视觉计算组
30+阅读 · 2017年12月29日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员