We introduce a novel problem for diversity-aware clustering. We assume that the potential cluster centers belong to a set of groups defined by protected attributes, such as ethnicity, gender, etc. We then ask to find a minimum-cost clustering of the data into $k$ clusters so that a specified minimum number of cluster centers are chosen from each group. We thus require that all groups are represented in the clustering solution as cluster centers, according to specified requirements. More precisely, we are given a set of clients $C$, a set of facilities $\pazocal{F}$, a collection $\mathcal{F}=\{F_1,\dots,F_t\}$ of facility groups $F_i \subseteq \pazocal{F}$, budget $k$, and a set of lower-bound thresholds $R=\{r_1,\dots,r_t\}$, one for each group in $\mathcal{F}$. The \emph{diversity-aware $k$-median problem} asks to find a set $S$ of $k$ facilities in $\pazocal{F}$ such that $|S \cap F_i| \geq r_i$, that is, at least $r_i$ centers in $S$ are from group $F_i$, and the $k$-median cost $\sum_{c \in C} \min_{s \in S} d(c,s)$ is minimized. We show that in the general case where the facility groups may overlap, the diversity-aware $k$-median problem is \np-hard, fixed-parameter intractable, and inapproximable to any multiplicative factor. On the other hand, when the facility groups are disjoint, approximation algorithms can be obtained by reduction to the \emph{matroid median} and \emph{red-blue median} problems. Experimentally, we evaluate our approximation methods for the tractable cases, and present a relaxation-based heuristic for the theoretically intractable case, which can provide high-quality and efficient solutions for real-world datasets.


翻译:我们引入了多样性群集的新问题 。 我们假设潜在集束中心属于一组由种族、 性别等受保护属性定义的群体 。 然后我们要求将数据以最低成本组合成 $k$ 集群, 以便从每个组中选择一个指定的集束中心最低数量 。 因此, 我们要求所有组按照具体要求作为群集中心在群集解决方案中代表 。 更确切地说, 我们得到一套客户 $C$, 一套设施 $pazocal{ f} 美元, 一套按受保护属性定义的群集 $mathcal{F_ 1, dotes. f_ commacal} 美元集集集, 以美元 以美元为基数, 以美元为基数, 以美元为基数, 以美元为基数, 以美元为基数, 以美元为基数, 以美元为基数, 以美元为基数, 以美元为基数为基数, 以美元为基数, 以美元为基数, 以美元为基数为基数, 以美元为基数, 以美元为基数为基数, 以美元为基数, 基数为基数, 以美元为基数为基数, 基数为基数为基数为基, 。 基数为基数为基数为基数,,, 基数为基, 基, 基, 以基, 基, 以以以以以以以 基, 基数为基数为基数为基数为基, 基,, 基数为基数为基数为基数为基数为基数为基数为基数为基数为基数为基数为基数, 基数为基数为基数为基数为基, 基,,以, 基数为基数为基数为基数为基数为基数为基数为基,以,以,以,以,以,以,以,以,以,以,以,以,以,以,以, 美元为基数为基数为基,以为基,以基,以, 美元为基为基为基,

0
下载
关闭预览

相关内容

【AAAI2021】对比聚类,Contrastive Clustering
专知会员服务
78+阅读 · 2021年1月30日
【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
专知会员服务
54+阅读 · 2019年12月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月20日
Arxiv
0+阅读 · 2021年8月22日
Multi-Center Federated Learning
Arxiv
0+阅读 · 2021年8月19日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
已删除
将门创投
5+阅读 · 2017年11月20日
Top
微信扫码咨询专知VIP会员