Machine learning systems are often trained using data collected from historical decisions. If past decisions were biased, then automated systems that learn from historical data will also be biased. We propose a black-box approach to identify and remove biased training data. Machine learning models trained on such debiased data (a subset of the original training data) have low individual discrimination, often 0%. These models also have greater accuracy and lower statistical disparity than models trained on the full historical data. We evaluated our methodology in experiments using 6 real-world datasets. Our approach outperformed seven previous approaches in terms of individual discrimination and accuracy.


翻译:机器学习系统往往利用从历史决定中收集的数据进行培训。如果过去的决定有偏差,那么从历史数据中学习的自动化系统也会有偏差。我们建议采用黑盒方法来识别和删除有偏差的培训数据。用这种有偏差的数据(原始培训数据的一个子集)培训的机器学习模型的个人歧视程度较低,通常为零。这些模型的准确性和统计差异也比用全部历史数据培训的模型要大。我们用6个真实世界数据集评估了我们的实验方法。我们的方法在个人歧视和准确性方面优于先前的7种方法。

0
下载
关闭预览

相关内容

机器学习系统设计系统评估标准
【干货书】机器学习速查手册,135页pdf
专知会员服务
126+阅读 · 2020年11月20日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
91+阅读 · 2020年7月4日
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
8+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
已删除
将门创投
4+阅读 · 2017年12月5日
Arxiv
0+阅读 · 2021年3月28日
Arxiv
0+阅读 · 2021年3月26日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2017年12月5日
Top
微信扫码咨询专知VIP会员