随着机器学习模型越来越多地用于做出涉及人类的重大决策,重要的是,这些模型不能因为种族和性别等受保护的属性而歧视。然而,模型持有人并不是受到歧视性模型伤害的首当其冲的人,因此模型持有人修复歧视性模型的自然动机很少。因此,如果其他实体也能发现或减轻这些模型中的不公平行为,将对社会有益。只需要对模型进行查询访问的黑盒方法非常适合这个目的,因为它们可以在不知道模型的全部细节的情况下执行。

在这篇论文中,我考虑了三种不同形式的不公平,并提出了解决它们的黑盒方法。第一个是代理使用,模型的某些组件是受保护属性的代理。其次是个体公平性的缺乏,这使模型不应该做出任意决定的直觉观念形式化。最后,模型的训练集可能不具有代表性,这可能导致模型对不同的保护组表现出不同程度的准确性。对于这些行为中的每一个,我提出使用一个或多个方法来帮助检测模型中的此类行为或确保缺乏此类行为。这些方法只需要对模型的黑箱访问,即使模型持有者不合作,它们也能有效地使用。我对这些方法的理论和实验分析证明了它们在这种情况下的有效性,表明它们是有用的技术工具,可以支持对歧视的有效回应。

成为VIP会员查看完整内容
47

相关内容

专知会员服务
103+阅读 · 2021年7月17日
【CMU博士论文】开放世界目标检测与跟踪,168页pdf
专知会员服务
58+阅读 · 2021年6月14日
专知会员服务
62+阅读 · 2021年4月11日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
215+阅读 · 2020年10月8日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
123+阅读 · 2020年8月27日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
34+阅读 · 2020年6月3日
注意力机制可解释吗?这篇ACL 2019论文说……
机器之心
10+阅读 · 2019年6月16日
Arxiv
0+阅读 · 2021年10月25日
Arxiv
0+阅读 · 2021年10月24日
Arxiv
0+阅读 · 2021年10月24日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
8+阅读 · 2018年5月24日
VIP会员
相关VIP内容
专知会员服务
103+阅读 · 2021年7月17日
【CMU博士论文】开放世界目标检测与跟踪,168页pdf
专知会员服务
58+阅读 · 2021年6月14日
专知会员服务
62+阅读 · 2021年4月11日
【牛津大学博士论文】解释深度神经网络,134页pdf
专知会员服务
215+阅读 · 2020年10月8日
【CMU博士论文】机器人深度强化学习,128页pdf
专知会员服务
123+阅读 · 2020年8月27日
微信扫码咨询专知VIP会员