Machine learning algorithms are increasingly used to inform critical decisions. There is a growing concern about bias, that algorithms may produce uneven outcomes for individuals in different demographic groups. In this work, we measure bias as the difference between mean prediction errors across groups. We show that even with unbiased input data, when a model is mis-specified: (1) population-level mean prediction error can still be negligible, but group-level mean prediction errors can be large; (2) such errors are not equal across groups; and (3) the difference between errors, i.e., bias, can take the worst-case realization. That is, when there are two groups of the same size, mean prediction errors for these two groups have the same magnitude but opposite signs. In closed form, we show such errors and bias are functions of the first and second moments of the joint distribution of features (for linear and probit regressions). We also conduct numerical experiments to show similar results in more general settings. Our work provides a first step for decoupling the impact of different causes of bias.


翻译:机器学习算法越来越多地被用于为关键决策提供信息。 人们日益关注偏差, 算法可能会为不同人口群体的个人产生不均衡的结果。 在这项工作中, 我们测量偏差是各群体之间平均预测错误之间的差别。 我们显示, 即使使用不偏颇的输入数据, 当模型被错误地指定时:(1) 人口一级平均预测错误仍然可以忽略不计, 但群体一级平均预测错误可能很大; (2) 这种错误在各群体之间是不平等的; (3) 错误之间的差别, 即偏差, 可以采取最坏的实现方式。 也就是说, 当有两组相同大小的人群时, 这两种群体的平均预测错误具有相同的规模, 但却是相反的信号。 我们以封闭的形式显示这种错误和偏差是特征共同分布的第一和第二时刻的函数( 线性回归和 Probit 回归 ) 。 我们还进行数字实验, 在更普遍的环境下显示相似的结果。 我们的工作为分解不同偏差原因的影响提供了第一步。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年4月2日
【经典书】线性代数元素,197页pdf
专知会员服务
55+阅读 · 2021年3月4日
【MIT干货书】机器学习算法视角,126页pdf
专知会员服务
77+阅读 · 2021年1月25日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
63+阅读 · 2020年7月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
14+阅读 · 2020年12月17日
VIP会员
相关VIP内容
专知会员服务
41+阅读 · 2021年4月2日
【经典书】线性代数元素,197页pdf
专知会员服务
55+阅读 · 2021年3月4日
【MIT干货书】机器学习算法视角,126页pdf
专知会员服务
77+阅读 · 2021年1月25日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
63+阅读 · 2020年7月16日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
鲁棒机器学习相关文献集
专知
8+阅读 · 2019年8月18日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员