We give a constant factor polynomial time pseudo-approximation algorithm for min-sum clustering with or without outliers. The algorithm is allowed to exclude an arbitrarily small constant fraction of the points. For instance, we show how to compute a solution that clusters 98\% of the input data points and pays no more than a constant factor times the optimal solution that clusters 99\% of the input data points. More generally, we give the following bicriteria approximation: For any $\eps > 0$, for any instance with $n$ input points and for any positive integer $n'\le n$, we compute in polynomial time a clustering of at least $(1-\eps) n'$ points of cost at most a constant factor greater than the optimal cost of clustering $n'$ points. The approximation guarantee grows with $\frac{1}{\eps}$. Our results apply to instances of points in real space endowed with squared Euclidean distance, as well as to points in a metric space, where the number of clusters, and also the dimension if relevant, is arbitrary (part of the input, not an absolute constant).
翻译:我们给出一个常数系数- 多时伪加准算法, 用于与外线或无外线的最小和整数组合。 该算法允许排除任意的一小块不变的点数。 例如, 我们演示如何计算一个解决方案, 即输入数据点分组 98 ⁇ 98 ⁇ , 并支付不超过输入数据点分组 99 ⁇ 最佳解决方案的常数倍数。 更一般地, 我们给出以下双标准近似值: 对于任何$/ eps > 0 美元, 任何输入点, 任何正整数 $n\ le n 。 我们用多元时间计算一个至少为 $( 1\ / eps) n 的成本点的组合, 最多为比 组合 $ 美元 点的最佳成本高的常数 。 近似保证值随着 $\ frac{ { 1unps} 美元的增长而增长。 我们的结果适用于具有正方欧clidean 距离的实际空间点的实例, 以及一个计量空间的点, 其中的组数数数数, 以及相关尺寸是任意的( 不变输入部分, 而不是绝对不变的不变) 。