Traditionally, clustering algorithms focus on partitioning the data into groups of similar instances. The similarity objective, however, is not sufficient in applications where a fair-representation of the groups in terms of protected attributes like gender or race, is required for each cluster. Moreover, in many applications, to make the clusters useful for the end-user, a balanced cardinality among the clusters is required. Our motivation comes from the education domain where studies indicate that students might learn better in diverse student groups and of course groups of similar cardinality are more practical e.g., for group assignments. To this end, we introduce the fair-capacitated clustering problem that partitions the data into clusters of similar instances while ensuring cluster fairness and balancing cluster cardinalities. We propose a two-step solution to the problem: i) we rely on fairlets to generate minimal sets that satisfy the fair constraint and ii) we propose two approaches, namely hierarchical clustering and partitioning-based clustering, to obtain the fair-capacitated clustering. The hierarchical approach embeds the additional cardinality requirements during the merging step while the partitioning-based one alters the assignment step using a knapsack problem formulation to satisfy the additional requirements. Our experiments on four educational datasets show that our approaches deliver well-balanced clusters in terms of both fairness and cardinality while maintaining a good clustering quality.


翻译:传统上,集群算法侧重于将数据分成相似的情况组。不过,相似性的目标不足以满足每个组群在应用中要求各组群在性别或种族等受保护属性方面有公平的代表性;此外,在许多应用中,为使集群组群对最终用户有用,各组群之间需要有平衡的基点。我们的动机来自教育领域,研究显示,学生在不同的学生群体和相似的基点课程组群中可能学习得更好,例如,对于群体任务,这种类集法更切合实际。为此,我们引入公平的能力组群问题,将数据分成相似的情况组群,同时确保集群公平性和平衡集群的基点。我们提出了解决问题的两步解决办法:(一) 我们依靠公平性组群集来创造最起码的组合,满足公平的制约;(二) 我们提出两种办法,即分级组群群和基于分区的集群,以获得公平能力的组合。分级法在合并阶段中包含了额外的基点要求,而基于分层组群群群群群群化的一个步骤则用 knapsackackmack 来改变指派步骤,同时确保集群的公平性和平衡性,同时在基础组群群群集中显示我们的四项质量要求。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2020年12月18日
【干货书】机器学习速查手册,135页pdf
专知会员服务
124+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
已删除
将门创投
5+阅读 · 2019年4月15日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Federated Learning with Fair Averaging
Arxiv
1+阅读 · 2021年6月16日
Arxiv
31+阅读 · 2020年9月21日
Arxiv
3+阅读 · 2020年5月1日
Arxiv
3+阅读 · 2020年2月5日
VIP会员
相关VIP内容
专知会员服务
41+阅读 · 2020年12月18日
【干货书】机器学习速查手册,135页pdf
专知会员服务
124+阅读 · 2020年11月20日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
【Manning新书】现代Java实战,592页pdf
专知会员服务
98+阅读 · 2020年5月22日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关论文
Top
微信扫码咨询专知VIP会员