Labelled "ground truth" datasets are routinely used to evaluate and audit AI algorithms applied in high-stakes settings. However, there do not exist widely accepted benchmarks for the quality of labels in these datasets. We provide empirical evidence that quality of labels can significantly distort the results of algorithmic audits in real-world settings. Using data annotators typically hired by AI firms in India, we show that fidelity of the ground truth data can lead to spurious differences in performance of ASRs between urban and rural populations. After a rigorous, albeit expensive, label cleaning process, these disparities between groups disappear. Our findings highlight how trade-offs between label quality and data annotation costs can complicate algorithmic audits in practice. They also emphasize the need for development of consensus-driven, widely accepted benchmarks for label quality.


翻译:“地面真相”数据集被例行用于评价和审计在高取量环境中应用的AI算法,然而,对于这些数据集中的标签质量,还没有得到广泛接受的基准。我们提供了经验证据,证明标签质量可以大大扭曲现实世界环境中的算法审计结果。使用大赦国际公司在印度通常雇用的数据批注员,我们表明地面真相数据的忠实性可能导致城市和农村人口在ASR绩效上的虚假差异。经过严格但昂贵的标签清理程序,这些群体之间的差别消失了。我们的调查结果突出表明,标签质量和数据批注成本之间的取舍会如何使实际的算法审计复杂化。他们还强调,需要为标签质量制定协商一致的、普遍接受的基准。

0
下载
关闭预览

相关内容

【经典书】算法博弈论,775页pdf,Algorithmic Game Theory
专知会员服务
149+阅读 · 2021年5月9日
专知会员服务
139+阅读 · 2020年5月19日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2022年1月21日
Arxiv
0+阅读 · 2022年1月21日
The Measure of Intelligence
Arxiv
6+阅读 · 2019年11月5日
VIP会员
Top
微信扫码咨询专知VIP会员