麻省理工学院(MIT)的研究人员发现,如果某一类型的机器学习模型使用一个不平衡的数据集进行训练,那么它学习到的偏差在事后是不可能修复的。他们开发了一种技术,无论训练数据集多么不平衡,都可以直接将公平性引入模型,从而提高模型在下游任务上的性能。

深度度量学习(DML)通过强调表示的相似结构,可以在较少的监督下进行学习。在诸如零样本检索等设置中,已经有很多工作在提高DML的泛化,但对其公平性的影响知之甚少。在这篇论文中,我们首次评估了在不平衡数据上训练的最先进的DML方法,并表明当用于下游任务时,这些表征对少数子群体的表现有负面影响。在本文中,我们首先通过分析表示空间的三个性质——类间对齐、类内对齐和均匀性,定义了DML中的公平性,并提出了非平衡DML基准中的公平性——finDML来描述表示公平性。利用finDML,我们发现DML表示中的偏差传播到常见的下游分类任务。令人惊讶的是,即使下游任务中的训练数据被重新平衡,这种偏差也会传播。为了解决这个问题,我们提出了部分属性去相关(Partial Attribute De-correlation, PARADE)来将敏感属性的特征表示去相关,并在嵌入空间和下游度量中减少子组之间的性能差距。

成为VIP会员查看完整内容
20

相关内容

“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。” ——中文维基百科

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
少标签数据学习,54页ppt
专知会员服务
194+阅读 · 2020年5月22日
谷歌NIPS'21 | 如何让图神经网络更稳健?
图与推荐
1+阅读 · 2022年3月22日
无监督学习:决策树AI异常检测
AI前线
15+阅读 · 2018年1月14日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
Arxiv
35+阅读 · 2021年8月2日
Arxiv
25+阅读 · 2018年8月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员