We devise the first coreset for kernel $k$-Means, and use it to obtain new, more efficient, algorithms. Kernel $k$-Means has superior clustering capability compared to classical $k$-Means particularly when clusters are separable non-linearly, but it also introduces significant computational challenges. We address this computational issue by constructing a coreset, which is a reduced dataset that accurately preserves the clustering costs. Our main result is the first coreset for kernel $k$-Means, whose size is independent of the number of input points $n$, and moreover is constructed in time near-linear in $n$. This result immediately implies new algorithms for kernel $k$-Means, such as a $(1+\epsilon)$-approximation in time near-linear in $n$, and a streaming algorithm using space and update time $\mathrm{poly}(k \epsilon^{-1} \log n)$. We validate our coreset on various datasets with different kernels. Our coreset performs consistently well, achieving small errors while using very few points. We show that our coresets can speed up kernel $k$-Means++ (the kernelized version of the widely used $k$-Means++ algorithm), and we further use this faster kernel $k$-Means++ for spectral clustering. In both applications, we achieve up to 1000x speedup while the error is comparable to baselines that do not use coresets.


翻译:我们为内核设计了第一个核心元件, 并用它来获取新的、 更有效率的算法。 Kernel $k$- Means 拥有比古典的美元- Means 更好的组群能力, 特别是当集群是可分解的非线性时, 但它也引入了巨大的计算挑战。 我们通过建立一个核心组来解决这个计算问题, 核心组是一个减少的数据集, 准确保存组组成本。 我们的主要结果就是 核心值$k- Means 的第一个核心组, 其大小不取决于输入点的数量 $, 并且建在接近线性的时间组中, 特别是当集群是可分解的 $k- 美元时。 我们确认我们的核心组的核心值不是以美元 。 核心值是用美元, 核心值是用美元( k\ lipslickral) 。 核心值可以持续地使用这个核心值, 核心值是用我们的核心值, 以美元 。

1
下载
关闭预览

相关内容

专知会员服务
31+阅读 · 2021年7月15日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
45+阅读 · 2020年1月23日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年7月7日
Arxiv
12+阅读 · 2021年10月22日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
26+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
4+阅读 · 2017年7月7日
Top
微信扫码咨询专知VIP会员