Machine Learning (ML) models are widely employed to drive many modern data systems. While they are undeniably powerful tools, ML models often demonstrate imbalanced performance and unfair behaviors. The root of this problem often lies in the fact that different subpopulations commonly display divergent trends: as a learning algorithm tries to identify trends in the data, it naturally favors the trends of the majority groups, leading to a model that performs poorly and unfairly for minority populations. Our goal is to improve the fairness and trustworthiness of ML models by applying only non-invasive interventions, i.e., without altering the data or the learning algorithm. We use a simple but key insight: the divergence of trends between different populations, and, consecutively, between a learned model and minority populations, is analogous to data drift, which indicates the poor conformance between parts of the data and the trained model. We explore two strategies (model-splitting and reweighing) to resolve this drift, aiming to improve the overall conformance of models to the underlying data. Both our methods introduce novel ways to employ the recently-proposed data profiling primitive of Conformance Constraints. Our experimental evaluation over 7 real-world datasets shows that both DifFair and ConFair improve the fairness of ML models. We demonstrate scenarios where DifFair has an edge, though ConFair has the greatest practical impact and outperforms other baselines. Moreover, as a model-agnostic technique, ConFair stays robust when used against different models than the ones on which the weights have been learned, which is not the case for other state of the art.


翻译:机器学习模型被广泛应用于推动现代数据系统。虽然它们无疑是强大的工具,但是机器学习模型经常表现出不平衡的性能和不公平的行为。问题的根源常常在于不同的亚群体常常显示不同的趋势:当学习算法尝试识别数据趋势时,自然地偏向多数群体的趋势,导致模型在少数群体中表现出不良的性能和不公平的行为。我们的目标是通过应用仅非侵入性干预(即不改变数据或学习算法)来提高机器学习模型的公平性和可信度。我们使用一个简单但关键的洞察:不同种群之间的趋势分歧,以及因此,学习模型和少数群体之间的分歧,类似于数据漂移,这表明数据中的某些部分与训练的模型之间的差距较大。我们探索了两种策略(模型分割和重新加权)来解决这种漂移,旨在提高模型对潜在数据的整体一致性。我们的两种方法都引入了最近提出的符合约束数据分析技术的创新应用。我们在7个真实世界的数据集上进行了实验评估,结果显示DifFair和ConFair都可以提高机器学习模型的公平性。我们展示了DifFair具有优势的情况,尽管ConFair具有最大的实际影响并且优于其他基线。此外,作为一个与模型无关的技术,ConFair在用于不同于学习权重的模型时保持稳健,这对其他最先进的技术不适用。

0
下载
关闭预览

相关内容

【ICDM 2022教程】图挖掘中的公平性:度量、算法和应用
专知会员服务
28+阅读 · 2022年12月26日
《校准自主性中的信任》2022最新16页slides
专知会员服务
20+阅读 · 2022年12月7日
【PKDD2020教程】可解释人工智能XAI:算法到应用,200页ppt
专知会员服务
101+阅读 · 2020年10月13日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
SIGIR2022 | 基于Prompt的用户自选公平性推荐算法
机器学习与推荐算法
1+阅读 · 2022年5月25日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月24日
Arxiv
19+阅读 · 2022年7月29日
VIP会员
相关资讯
浅聊对比学习(Contrastive Learning)
极市平台
2+阅读 · 2022年7月26日
SIGIR2022 | 基于Prompt的用户自选公平性推荐算法
机器学习与推荐算法
1+阅读 · 2022年5月25日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】用Python/OpenCV实现增强现实
机器学习研究会
15+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员