成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
将公平注入AI:机器学习模型即使在不公平数据上训练也能产生公平输出
2022 年 3 月 15 日
大数据文摘
大数据文摘转载自数据派THU
如果使用不平衡的数据集训练机器学习模型,比如一个包含远多于肤色较浅的人的图像的数据集,则当模型部署在现实世界中时,该模型的预测存在严重风险。
但这只是问题的一部分。麻省理工学院的研究人员发现,在图像识别任务中流行的机器学习模型在对不平衡数据进行训练时实际上会编码偏差。即使使用最先进的公平性提升技术,甚至在使用平衡数据集重新训练模型时,模型中的这种偏差也无法在以后修复。
因此,研究人员想出了一种技术,将公平性直接引入模型的内部表示本身。这使模型即使在不公平数据上进行训练也能产生公平的输出,这一点尤其重要,因为很少有平衡良好的数据集用于机器学习。
他们开发的解决方案不仅可以使模型做出更平衡的预测,还可以提高它们在面部识别和动物物种分类等下游任务中的表现。
「在机器学习中,将数据归咎于模型偏差是很常见的。但我们并不总是有平衡的数据。因此,我们需要找到真正解决数据不平衡问题的方法,」主要作者、麻省理工学院计算机科学与人工智能实验室 (CSAIL) 健康 ML 小组的研究生 Natalie Dullerud 说。
定义公平
研究人员研究的机器学习技术被称为深度度量学习(deep metric learning),它是表示学习的一种广泛形式。在深度度量学习中,神经网络通过将相似的照片映射在一起并且将不同的照片映射得很远来学习对象之间的相似性。在训练期间,该神经网络将图像映射到「嵌入空间」中,其中照片之间的相似性度量对应于它们之间的距离。
例如,如果使用深度度量学习模型对鸟类进行分类,它会将金雀的照片一起映射到嵌入空间的一部分中,并将红雀的照片映射到嵌入空间的另一部分中。一旦经过训练,该模型就可以有效地测量它以前从未见过的新图像的相似性。它会学习将看不见的鸟类的图像聚集在一起,但在嵌入空间内离红雀或金雀更远。
这张图片显示了鸟类颜色的两个不同的 PARADE 嵌入
Dullerud 说,模型学习的相似性度量非常稳健,这就是为什么深度度量学习经常被用于面部识别的原因。但她和她的同事想知道如何确定相似性指标是否有偏差。
「我们知道数据反映了社会进程的偏见。这意味着我们必须将重点转移到设计更适合现实的方法上。」Ghassemi 说。
研究人员定义了相似性度量不公平的两种方式。以面部识别为例,如果与那些图像是肤色较浅的人相比,如果将肤色较深的人更靠近彼此嵌入,即使他们不是同一个人,该指标将是不公平的。其次,如果它学到的用于衡量相似性的特征对于多数群体来说比少数群体更好,那将是不公平的。
研究人员对具有不公平相似性指标的模型进行了许多实验,但无法克服模型在其嵌入空间中学到的偏差。
「这很可怕,因为公司发布这些嵌入模型,然后人们对它们进行微调以完成一些下游分类任务是一种非常普遍的做法。但无论你在下游做什么,你根本无法解决嵌入空间中引发的公平问题,」Dullerud 说。
她说,即使用户在下游任务的平衡数据集上重新训练模型(这是解决公平问题的最佳情况),仍然存在至少 20% 的性能差距。
解决这个问题的唯一方法是确保嵌入空间一开始是公平的。
学习单独的指标
研究人员的解决方案称为部分属性去相关 (PARADE),涉及训练模型以学习敏感属性(如肤色)的单独相似性度量,然后将肤色相似性度量与目标相似性度量去相关。如果模型正在学习不同人脸的相似度度量,它将学习使用肤色以外的特征来映射靠近在一起的相似面孔和相距很远的不同面孔。
任何数量的敏感属性都可以通过这种方式与目标相似度度量去相关。并且由于敏感属性的相似性度量是在单独的嵌入空间中学习的,所以在训练后将其丢弃,因此模型中仅保留了目标相似性度量。
他们的方法适用于许多情况,因为用户可以控制相似性度量之间的去相关量。例如,如果模型将通过乳房 X 光照片诊断乳腺癌,临床医生可能希望在最终嵌入空间中保留一些有关生物性别的信息,因为女性患乳腺癌的可能性比男性高得多,Dullerud 解释说。
他们在面部识别和鸟类分类这两项任务上测试了他们的方法,发现无论他们使用什么数据集,它都能减少嵌入空间和下游任务中由偏差引起的性能差距。
展望未来,Dullerud 感兴趣的是如何迫使深度度量学习模型首先学习好的特征。
「您如何正确审核公平性?这是一个悬而未决的问题。你怎么知道一个模型是公平的,或者它只在某些情况下是公平的,那些情况是什么?这些是我真正感兴趣的问题,」她说。
参考内容:
https://scitechdaily.com/injecting-fairness-into-ai-machine-learning-models-that-produce-fair-outputs-even-when-trained-on-unfair-data/
https://openreview.net/pdf?id=js62_xuLDDv
编辑:黄继彦
校对:林亦霖
点「在看」的人都变好看了哦!
登录查看更多
点赞并收藏
0
暂时没有读者
2
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
嵌入空间
关注
0
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
39+阅读 · 2022年3月15日
AI 模型偏差对信任的损害可能超出你的想象,该如何解决?(附报告)
专知会员服务
19+阅读 · 2022年3月14日
【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集?哈佛、MIT专家为你解读
专知会员服务
30+阅读 · 2022年3月11日
【ICLR 2022 paper解读】将公平性注入机器学习模型,降低模型偏差,即使用于训练模型的数据集是不平衡的
专知会员服务
32+阅读 · 2022年3月10日
【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models
专知会员服务
20+阅读 · 2022年3月7日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
62+阅读 · 2021年4月23日
【WWW2021】神经公平协同过滤的去偏见职业推荐
专知会员服务
18+阅读 · 2021年4月7日
【ICML2020-Tutorial】无标签表示学习,222页ppt,DeepMind
专知会员服务
89+阅读 · 2020年7月14日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
163+阅读 · 2019年12月21日
DeepMind的AI能指导人类的直觉吗?
AI前线
0+阅读 · 2022年3月21日
仅需几天,简约神经网络更快地发现物理定律
机器之心
0+阅读 · 2021年12月25日
谷歌联合团队论文:什么决定了AI数据集们的生命周期?
THU数据派
1+阅读 · 2021年12月20日
为什么机器学习模型会失败?
InfoQ
0+阅读 · 2021年12月4日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
用缩放CNN消除反卷积带来的棋盘伪影
论智
19+阅读 · 2018年10月30日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
孪生网络实现小数据学习!看神经网络如何找出两张图片的相似点
机器人圈
35+阅读 · 2017年7月18日
协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究
国家自然科学基金
2+阅读 · 2015年12月31日
高维回归模型的预测稳定性研究
国家自然科学基金
3+阅读 · 2015年12月31日
排序与半监督学习的误差分析
国家自然科学基金
0+阅读 · 2015年12月31日
面向异分布数据的主动学习方法
国家自然科学基金
12+阅读 · 2015年12月31日
面向复杂数据基于流形学习的非线性降维算法研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于流形结构的原数据恢复与重构
国家自然科学基金
0+阅读 · 2012年12月31日
城市居民节能行为影响因素及引导政策研究——以中国东部城市为例
国家自然科学基金
0+阅读 · 2012年12月31日
基于本体的深层网络数据集成方法研究
国家自然科学基金
2+阅读 · 2009年12月31日
高维异构数据的测度学习算法及在图像分类中的应用研究
国家自然科学基金
3+阅读 · 2009年12月31日
噪声作用下复杂网络稳定性分析与控制研究
国家自然科学基金
0+阅读 · 2009年12月31日
PaLM: Scaling Language Modeling with Pathways
Arxiv
0+阅读 · 2022年4月19日
End-to-End Differentiable Molecular Mechanics Force Field Construction
Arxiv
0+阅读 · 2022年4月18日
Graph Condensation for Graph Neural Networks
Arxiv
2+阅读 · 2022年4月17日
Unsupervised Cross-Task Generalization via Retrieval Augmentation
Arxiv
0+阅读 · 2022年4月17日
Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning
Arxiv
0+阅读 · 2022年4月14日
Domain Generalization in Vision: A Survey
Arxiv
16+阅读 · 2021年7月18日
Generalizing to Unseen Domains: A Survey on Domain Generalization
Arxiv
30+阅读 · 2021年3月10日
Subgraph Neural Networks
Arxiv
27+阅读 · 2020年6月19日
Graph Transformer Networks
Arxiv
15+阅读 · 2020年2月5日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
嵌入空间
机器学习模型
深度度量学习
度量学习
相似性度量
偏差
相关VIP内容
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
39+阅读 · 2022年3月15日
AI 模型偏差对信任的损害可能超出你的想象,该如何解决?(附报告)
专知会员服务
19+阅读 · 2022年3月14日
【Nature Machine Intelligence】机器学习模型能否克服有偏置的数据集?哈佛、MIT专家为你解读
专知会员服务
30+阅读 · 2022年3月11日
【ICLR 2022 paper解读】将公平性注入机器学习模型,降低模型偏差,即使用于训练模型的数据集是不平衡的
专知会员服务
32+阅读 · 2022年3月10日
【MIT-ICLR2022】在机器学习模型中注入公平性, Injecting fairness into machine-learning models
专知会员服务
20+阅读 · 2022年3月7日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
62+阅读 · 2021年4月23日
【WWW2021】神经公平协同过滤的去偏见职业推荐
专知会员服务
18+阅读 · 2021年4月7日
【ICML2020-Tutorial】无标签表示学习,222页ppt,DeepMind
专知会员服务
89+阅读 · 2020年7月14日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
163+阅读 · 2019年12月21日
热门VIP内容
开通专知VIP会员 享更多权益服务
《优化联合作战准备:日本视角》最新21页
《基于嵌入式导弹系统的自主防空系统以挫败巡航威胁的定量论证》90页
乌克兰首次完全依靠UGV 和 FPV 无人机全自动攻击俄罗斯部队
《中高度长航时遥控无人机自动定位和跟踪》190页
相关资讯
DeepMind的AI能指导人类的直觉吗?
AI前线
0+阅读 · 2022年3月21日
仅需几天,简约神经网络更快地发现物理定律
机器之心
0+阅读 · 2021年12月25日
谷歌联合团队论文:什么决定了AI数据集们的生命周期?
THU数据派
1+阅读 · 2021年12月20日
为什么机器学习模型会失败?
InfoQ
0+阅读 · 2021年12月4日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
用缩放CNN消除反卷积带来的棋盘伪影
论智
19+阅读 · 2018年10月30日
机器学习模型的“可解释性”到底有多重要?
中国科学院自动化研究所
20+阅读 · 2018年3月1日
孪生网络实现小数据学习!看神经网络如何找出两张图片的相似点
机器人圈
35+阅读 · 2017年7月18日
相关基金
协变量随机缺失和有测量误差数据下影响诊断精度的半参数模型研究
国家自然科学基金
2+阅读 · 2015年12月31日
高维回归模型的预测稳定性研究
国家自然科学基金
3+阅读 · 2015年12月31日
排序与半监督学习的误差分析
国家自然科学基金
0+阅读 · 2015年12月31日
面向异分布数据的主动学习方法
国家自然科学基金
12+阅读 · 2015年12月31日
面向复杂数据基于流形学习的非线性降维算法研究
国家自然科学基金
2+阅读 · 2013年12月31日
基于流形结构的原数据恢复与重构
国家自然科学基金
0+阅读 · 2012年12月31日
城市居民节能行为影响因素及引导政策研究——以中国东部城市为例
国家自然科学基金
0+阅读 · 2012年12月31日
基于本体的深层网络数据集成方法研究
国家自然科学基金
2+阅读 · 2009年12月31日
高维异构数据的测度学习算法及在图像分类中的应用研究
国家自然科学基金
3+阅读 · 2009年12月31日
噪声作用下复杂网络稳定性分析与控制研究
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
PaLM: Scaling Language Modeling with Pathways
Arxiv
0+阅读 · 2022年4月19日
End-to-End Differentiable Molecular Mechanics Force Field Construction
Arxiv
0+阅读 · 2022年4月18日
Graph Condensation for Graph Neural Networks
Arxiv
2+阅读 · 2022年4月17日
Unsupervised Cross-Task Generalization via Retrieval Augmentation
Arxiv
0+阅读 · 2022年4月17日
Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning
Arxiv
0+阅读 · 2022年4月14日
Domain Generalization in Vision: A Survey
Arxiv
16+阅读 · 2021年7月18日
Generalizing to Unseen Domains: A Survey on Domain Generalization
Arxiv
30+阅读 · 2021年3月10日
Subgraph Neural Networks
Arxiv
27+阅读 · 2020年6月19日
Graph Transformer Networks
Arxiv
15+阅读 · 2020年2月5日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
大家都在搜
自主可控
palantir
大型语言模型
CMU博士论文
技术报告
无人艇
洛克菲勒
波士顿动力
村上春树
GANLab 将GA
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top