随着机器学习模型越来越多地用于做出涉及人类的重大决策,重要的是,这些模型不能因为种族和性别等受保护的属性而歧视。然而,模型持有人并不是受到歧视性模型伤害的首当其冲的人,因此模型持有人修复歧视性模型的自然动机很少。因此,如果其他实体也能发现或减轻这些模型中的不公平行为,将对社会有益。只需要对模型进行查询访问的黑盒方法非常适合这个目的,因为它们可以在不知道模型的全部细节的情况下执行。
在这篇论文中,我考虑了三种不同形式的不公平,并提出了解决它们的黑盒方法。第一个是代理使用,模型的某些组件是受保护属性的代理。其次是个体公平性的缺乏,这使模型不应该做出任意决定的直觉观念形式化。最后,模型的训练集可能不具有代表性,这可能导致模型对不同的保护组表现出不同程度的准确性。对于这些行为中的每一个,我提出使用一个或多个方法来帮助检测模型中的此类行为或确保缺乏此类行为。这些方法只需要对模型的黑箱访问,即使模型持有者不合作,它们也能有效地使用。我对这些方法的理论和实验分析证明了它们在这种情况下的有效性,表明它们是有用的技术工具,可以支持对歧视的有效回应。