Spherical k-Means is frequently used to cluster document collections because it performs reasonably well in many settings and is computationally efficient. However, the time complexity increases linearly with the number of clusters k, which limits the suitability of the algorithm for larger values of k depending on the size of the collection. Optimizations targeted at the Euclidean k-Means algorithm largely do not apply because the cosine distance is not a metric. We therefore propose an efficient indexing structure to improve the scalability of Spherical k-Means with respect to k. Our approach exploits the sparsity of the input vectors and the convergence behavior of k-Means to reduce the number of comparisons on each iteration significantly.


翻译:球形 k- Means 通常用于集束文件收藏, 因为它在许多设置中表现得相当好,而且具有计算效率。 但是,随着集束 k 的数量, 时间复杂性会直线增加, 从而限制了算法对较大 k 值的适合性, 取决于收集的大小。 以 Euclidean k- Means 算法为对象的优化应用在很大程度上并不适用, 因为焦线距离不是一个尺度。 因此, 我们提出一个高效的索引结构, 以提高 球形 k- Means 相对于 k 的可缩缩缩性。 我们的方法利用了输入矢量的宽度和 k- Means 的趋同行为, 以显著减少每次迭代的比较次数 。

0
下载
关闭预览

相关内容

专知会员服务
77+阅读 · 2021年3月16日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
8+阅读 · 2017年7月21日
Row-clustering of a Point Process-valued Matrix
Arxiv
0+阅读 · 2021年10月4日
Arxiv
0+阅读 · 2021年9月30日
Arxiv
1+阅读 · 2021年9月30日
Meta-Learning to Cluster
Arxiv
17+阅读 · 2019年10月30日
VIP会员
相关VIP内容
专知会员服务
77+阅读 · 2021年3月16日
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
195+阅读 · 2019年10月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
8+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员