We address the problem of validating the ouput of clustering algorithms. Given data $\mathcal{D}$ and a partition $\mathcal{C}$ of these data into $K$ clusters, when can we say that the clusters obtained are correct or meaningful for the data? This paper introduces a paradigm in which a clustering $\mathcal{C}$ is considered meaningful if it is good with respect to a loss function such as the K-means distortion, and stable, i.e. the only good clustering up to small perturbations. Furthermore, we present a generic method to obtain post-inference guarantees of near-optimality and stability for a clustering $\mathcal{C}$. The method can be instantiated for a variety of clustering criteria (also called loss functions) for which convex relaxations exist. Obtaining the guarantees amounts to solving a convex optimization problem. We demonstrate the practical relevance of this method by obtaining guarantees for the K-means and the Normalized Cut clustering criteria on realistic data sets. We also prove that asymptotic instability implies finite sample instability w.h.p., allowing inferences about the population clusterability from a sample. The guarantees do not depend on any distributional assumptions, but they depend on the data set $\mathcal{D}$ admitting a stable clustering.
翻译:我们处理的是如何验证组群算法的绝对值问题。 如果数据为 $\ mathcal{D} $ 和这些数据的分区 $\ mathcal{C} $ 美元, 当我们可以说获得的组群对数据是正确或有意义的时, 我们就可以将数据分成 $\ mathcal{C} 美元 到 $K 组组组群, 当我们说获得的组群对数据正确或有意义时, 就可以将数据分成组群 $\ mathcal{C} 美元 。 本文引入了一个模式, 如果组合组群( 也称为损失函数) 对K 对象扭曲等损失函数有利, 并且保持稳定, 我们通过对K 对象组群集进行保证, 和对现实数据集的正常化组合标准, 来证明这一方法的实际相关性。 我们还证明, 组群集组群集的不稳定性后保证, 不取决于 组群集的固定性抽样 数据 。 基数 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基 基