The classic Cluster Editing problem (also known as Correlation Clustering) asks to transform a given graph into a disjoint union of cliques (clusters) by a small number of edge modifications. When applied to vertex-colored graphs (the colors representing subgroups), standard algorithms for the NP-hard Cluster Editing problem may yield solutions that are biased towards subgroups of data (e.g., demographic groups), measured in the number of modifications incident to the members of the subgroups. We propose a modification fairness constraint which ensures that the number of edits incident to each subgroup is proportional to its size. To start with, we study Modification-Fair Cluster Editing for graphs with two vertex colors. We show that the problem is NP-hard even if one may only insert edges within a subgroup; note that in the classic "non-fair" setting, this case is trivially polynomial-time solvable. However, in the more general editing form, the modification-fair variant remains fixed-parameter tractable with respect to the number of edge edits. We complement these and further theoretical results with an empirical analysis of our model on real-world social networks where we find that the price of modification-fairness is surprisingly low, that is, the cost of optimal modification-fair differs from the cost of optimal "non-fair" solutions only by a small percentage.
翻译:经典的 Croup 编辑问题( 也称为 Circel 分类组合) 要求通过少量边缘修改将给定的图表转换成不连接的 cliques( 群集) 。 当应用到顶端彩色图表( 代表分组的颜色) 时, NP- 硬体分组编辑问题的标准算法可能会产生偏向数据分组( 例如人口组) 的解决方案( 人口组), 以子分组成员的修改事件数量来衡量。 我们建议修改公平性限制, 以确保每个分组的编辑事件数量与其大小成正比。 首先, 我们研究两个顶端颜色的图表的修改- Fair 群集编辑。 我们显示, 问题是硬的, 即使可能只在分组内插入边缘; 注意在典型的“ 不公平” 环境中, 这个案件是微不足道的多数值时间可溶解的。 然而, 在更笼统的编辑形式中, 修改的变量仍然固定的参数可与边缘编辑数量成正比。 首先, 我们用这些和进一步的理论结果来补充我们从真实的公平价格模式中找到的 最差的模型, 我们从最差的模型中找到的模型, 的 的 的 最差的 的 的 的 的 的 的 的 的 的 的 价格 的 的 的 的 的 的 的 的 价格的 的 的 的 的 的 价格的 的 的 的 的 的 的 的 的 价格的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的 的