In the Correlation Clustering problem, we are given a weighted graph $G$ with its edges labeled as "similar" or "dissimilar" by a binary classifier. The goal is to produce a clustering that minimizes the weight of "disagreements": the sum of the weights of "similar" edges across clusters and "dissimilar" edges within clusters. We study the correlation clustering problem under the following assumption: Every "similar" edge $e$ has weight $\mathbf{w}_e\in[\alpha \mathbf{w}, \mathbf{w}]$ and every "dissimilar" edge $e$ has weight $\mathbf{w}_e\geq \alpha \mathbf{w}$ (where $\alpha\leq 1$ and $\mathbf{w}>0$ is a scaling parameter). We give a $(3 + 2 \log_e (1/\alpha))$ approximation algorithm for this problem. This assumption captures well the scenario when classification errors are asymmetric. Additionally, we show an asymptotically matching Linear Programming integrality gap of $\Omega(\log 1/\alpha)$.
翻译:在关联群集问题中, 一个二进制分类器给我们一个加权图形$G$, 其边缘被标记为“ 相似” 或“ 不同” 。 目标是生成一个组合, 以最小化“ 不一致” 的重量为最小值 : “ 相似” 边缘在组群中和“ 不同” 边缘在组群中的总和 。 我们根据以下假设研究相关分组问题 : 每个“ 相似” 边缘$ 的重量 $\ mathbf{w},\ alpha \ mathbf{w}$ 和每个“ 不同” 边缘 。 目标是生成一个组合组合组合 $ 的重量 $\ mathbf{w} 的重量 。 我们给出了 $( 3+ 2\ log_ e ( 1/\\ ALpha) ) 的近似值 。 这个假设捕获量 $\ = ASAL 的模型, 当匹配性分类为 ASNA 时, /\\ 美元 QL 。