Offline k-means clustering was studied extensively, and algorithms with a constant approximation are available. However, online clustering is still uncharted. New factors come into play: the ordering of the dataset and whether the number of points, n, is known in advance or not. Their exact effects are unknown. In this paper we focus on the online setting where the decisions are irreversible: after a point arrives, the algorithm needs to decide whether to take the point as a center or not, and this decision is final. How many centers are needed and sufficient to achieve constant approximation in this setting? We show upper and lower bounds for all the different cases. These bounds are exactly the same up to a constant, thus achieving optimal bounds. For example, for k-means cost with constant k>1 and random order, Theta(log n) centers are enough to achieve a constant approximation, while the mere a priori knowledge of n reduces the number of centers to a constant. These bounds hold for any distance function that obeys a triangle-type inequality.


翻译:离线 k 角度组群已经进行了广泛的研究, 并且可以使用恒定近似值的算法 。 但是, 在线组群仍然没有被探索。 新的因素正在起作用: 数据集的顺序以及点数( n) 是否事先已知。 它们的确切效果未知。 在本文中, 我们关注决定不可逆转的在线设置 : 在点到达后, 算法需要决定是否将点作为中心点, 而此决定是最终的 。 在这个设置中, 有多少中心需要且足以实现恒定近似? 我们为所有不同的情况显示上下界限 。 这些界限完全相同到一个常数, 从而达到最佳的界限 。 例如, 对于以恒定 k>1 和随机顺序计算的 k 平均成本, Theta (log n) 中心足以实现恒定近, 而仅仅对 n 的先期知识将中心数减少到一个常数 。 这些边框将维持在符合三角形不平等性的任何远程函数 。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
专知会员服务
114+阅读 · 2020年11月27日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
106+阅读 · 2020年6月10日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年11月6日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年4月16日
Arxiv
0+阅读 · 2021年4月15日
Arxiv
0+阅读 · 2021年4月15日
Arxiv
0+阅读 · 2021年4月15日
Arxiv
0+阅读 · 2021年4月14日
VIP会员
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
已删除
将门创投
4+阅读 · 2018年11月6日
【学习】(Python)SVM数据分类
机器学习研究会
6+阅读 · 2017年10月15日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员