Constructing small-sized coresets for various clustering problems in different metric spaces has attracted significant attention for the past decade. A central problem in the coreset literature is to understand what is the best possible coreset size for $(k,z)$-clustering in Euclidean space. While there has been significant progress in the problem, there is still a gap between the state-of-the-art upper and lower bounds. For instance, the best known upper bound for $k$-means ($z=2$) is $\min \{O(k^{3/2} \varepsilon^{-2}),O(k \varepsilon^{-4})\}$ [1,2], while the best known lower bound is $\Omega(k\varepsilon^{-2})$ [1]. In this paper, we make significant progress on both upper and lower bounds. For a large range of parameters (i.e., $\varepsilon, k$), we have a complete understanding of the optimal coreset size. In particular, we obtain the following results: (1) We present a new coreset lower bound $\Omega(k \varepsilon^{-z-2})$ for Euclidean $(k,z)$-clustering when $\varepsilon \geq \Omega(k^{-1/(z+2)})$. In view of the prior upper bound $\tilde{O}_z(k \varepsilon^{-z-2})$ [1], the bound is optimal. The new lower bound is surprising since $\Omega(k\varepsilon^{-2})$ [1] is ``conjectured" to be the correct bound in some recent works (see e.g., [1,2]]). (2) For the upper bound, we provide efficient coreset construction algorithms for $(k,z)$-clustering with improved or optimal coreset sizes in several metric spaces. [1] Cohen-Addad, Larsen, Saulpic, Schwiegelshohn. STOC'22. [2] Cohen-Addad, Larsen, Saulpic, Schwiegelshohn, Sheikh-Omar, NeurIPS'22.


翻译:在不同度量空间中建立小规模的储备已经引起了过去十年的极大关注。储备文献中的一个核心问题是理解欧几里得空间中$(k,z)$-聚类的最佳储备规模。尽管在该问题上已经取得了显着的进展,但目前的上限和下限仍存在差距。例如,对于$k$-means($z=2$),已知的最佳上界是$\min \{O(k^{3/2} \varepsilon^{-2}),O(k \varepsilon^{-4})\}$[1,2],而已知的最佳下界是$\Omega(k\varepsilon^{-2})$[1]。在本文中,我们在上限和下限上都取得了显着进展。对于很大范围的参数(即$\varepsilon, k$),我们完全了解了最优储备规模。特别地,我们获得了以下结果:(1)当$\varepsilon \geq \Omega(k^{-1/(z+2)})$时,我们提供欧几里得$(k,z)$-聚类的新储备下限$\Omega(k \varepsilon^{-z-2})$。考虑到以前的上限$\tilde{O}_z(k \varepsilon^{-z-2})$[1],这个下限是最优的。这个新的下限很令人惊讶,因为在一些最近的工作中(例如,[1,2]),“猜想”$\Omega(k\varepsilon^{-2})$是正确的下限。(2)关于上限,我们提供了在多个度量空间中实现$(k,z)$-聚类的有效储备构造算法,储备规模得到了改进或达到了最优。[1] Cohen-Addad, Larsen, Saulpic, Schwiegelshohn. STOC'22. [2] Cohen-Addad, Larsen, Saulpic, Schwiegelshohn, Sheikh-Omar, NeurIPS'22.

0
下载
关闭预览

相关内容

在Omega中,资源发放是乐观的(optimistic),每一个应用都发放了所有的可用的资源,冲突是在提交的时候被解决的。Omega的资源管理器,本质上是一个保存着每一个节点的状态关系数据库,并且用不同的乐观并发控制来解决冲突。这样的好处是其大大的提高了调度器的性能(完全的并行,full parallelism)和资源利用率。
【ICML2022】Transformer是元强化学习器
专知会员服务
54+阅读 · 2022年6月15日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
17+阅读 · 2021年9月17日
专知会员服务
62+阅读 · 2020年3月4日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Zero-Shot Learning相关资源大列表
专知
52+阅读 · 2019年1月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月5日
Arxiv
0+阅读 · 2023年6月5日
Arxiv
1+阅读 · 2023年6月5日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员