We study the power of uniform sampling for $k$-Median in various metric spaces. We relate the query complexity for approximating $k$-Median, to a key parameter of the dataset, called the balancedness $\beta \in (0, 1]$ (with $1$ being perfectly balanced). We show that any algorithm must make $\Omega(1 / \beta)$ queries to the point set in order to achieve $O(1)$-approximation for $k$-Median. This particularly implies existing constructions of coresets, a popular data reduction technique, cannot be query-efficient. On the other hand, we show a simple uniform sample of $\mathrm{poly}(k \epsilon^{-1} \beta^{-1})$ points suffices for $(1 + \epsilon)$-approximation for $k$-Median for various metric spaces, which nearly matches the lower bound. We conduct experiments to verify that in many real datasets, the balancedness parameter is usually well bounded, and that the uniform sampling performs consistently well even for the case with moderately large balancedness, which justifies that uniform sampling is indeed a viable approach for solving $k$-Median.
翻译:我们研究各种度量空间的美元-米德统一取样能力。 我们把约合美元-米德的质询复杂性与数据集的关键参数( 称为平衡 $\beta $ ein ( 0, 1) $ (美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 ) 查询到设定的点, 以达到美元(1 美元 / 美元 美元 - 美元 乘以美元 美元, 美元 美德 美元 美元 。 这特别意味着现有核心数据集的构造, 一种流行的数据减少技术, 无法提高查询效率 。 另一方面, 我们展示了一个简单的 $\ mathrm {poly (k\ epsilon) $ ( 1 美元 美元 美元 美元 美元 美元 美元 (美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 数 美元 美元 美元 美元 美元, 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元, 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元 美元,,,, 与 等,,,, 等,,,,,, 美元,,,, 等, 等,,, 等 等, 等 等,, 等,,,,, 等, 等 等 等 等 等 等 等 等 等 等 等 等 等,, 我们等 等 等 等