In this work we study the problem of measuring the fairness of a machine learning model under noisy information. Focusing on group fairness metrics, we investigate the particular but common situation when the evaluation requires controlling for the confounding effect of covariate variables. In a practical setting, we might not be able to jointly observe the covariate and group information, and a standard workaround is to then use proxies for one or more of these variables. Prior works have demonstrated the challenges with using a proxy for sensitive attributes, and strong independence assumptions are needed to provide guarantees on the accuracy of the noisy estimates. In contrast, in this work we study using a proxy for the covariate variable and present a theoretical analysis that aims to characterize weaker conditions under which accurate fairness evaluation is possible. Furthermore, our theory identifies potential sources of errors and decouples them into two interpretable parts $\gamma$ and $\epsilon$. The first part $\gamma$ depends solely on the performance of the proxy such as precision and recall, whereas the second part $\epsilon$ captures correlations between all the variables of interest. We show that in many scenarios the error in the estimates is dominated by $\gamma$ via a linear dependence, whereas the dependence on the correlations $\epsilon$ only constitutes a lower order term. As a result we expand the understanding of scenarios where measuring model fairness via proxies can be an effective approach. Finally, we compare, via simulations, the theoretical upper-bounds to the distribution of simulated estimation errors and show that assuming some structure on the data, even weak, is key to significantly improve both theoretical guarantees and empirical results.
翻译:在这项工作中,我们研究了在噪音信息下衡量机器学习模型公平性的问题。 以群体公平度衡量为焦点, 我们调查了在评估需要控制共变变量混杂效应的情况下, 特定但常见的情况。 在实际环境下, 我们可能无法共同观察共变和组信息, 标准变通方法是使用一个或一个以上变量的代理。 先前的工程展示了使用敏感属性替代工具的挑战, 并且需要强有力的独立假设来提供对噪音估算准确性的保证。 相反, 我们研究的这项工作中, 使用共变变量的代理数据, 并提出理论分析, 旨在描述准确公平性评估可能的薄弱条件。 此外, 我们的理论可能无法共同观测出错误的潜在来源, 并把它们分解成两个可解释的部分 $gamma 和 $ eepslon$ 。 第一部分仅取决于替代模型的性能, 例如精确和回顾, 而第二部分 美元 则需要为测算所有利息变量之间的关联性。 相比之下, 我们使用共变数变量的替代值变量, 并进行理论分析 分析 度 度 。 我们显示, 在 以 美元 度 度 度 度 度 度 度 度 度 度 数据 假设 中 中 的 的 最终 将 将 数据 数据 的 将 以 以 度 以 度 度 以 度 度 以 度 以 以 度 度 度 度 度 表示 表示 以 以 度 度 度 度 度 度 表示 表示 度 度 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 度 表示 表示 表示 表示 表示 表示 表示 表示 表示 度 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 度 表示 度 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示 表示