Racial disparity in academia is a widely acknowledged problem. The quantitative understanding of racial-based systemic inequalities is an important step towards a more equitable research system. However, few large-scale analyses have been performed on this topic, mostly because of the lack of robust race-disambiguation algorithms. Identifying author information does not generally include the author's race. Therefore, an algorithm needs to be employed, using known information about authors, i.e., their names, to infer their perceived race. Nevertheless, as any other algorithm, the process of racial inference can generate biases if it is not carefully considered. When the research is focused on the understanding of racial-based inequalities, such biases undermine the objectives of the investigation and may perpetuate inequities. The goal of this article is to assess the biases introduced by the different approaches used name-based racial inference. We use information from US census and mortgage applications to infer the race of US author names in the Web of Science. We estimate the effects of using given and family names, thresholds or continuous distributions, and imputation. Our results demonstrate that the validity of name-based inference varies by race and ethnicity and that threshold approaches underestimate Black authors and overestimate White authors. We conclude with recommendations to avoid potential biases. This article fills an important research gap that will allow more systematic and unbiased studies on racial disparity in science.


翻译:学术界的种族差异是一个广泛公认的问题。对种族为基础的系统性制度不平等的定量理解是朝向更公平的研究制度迈出的重要一步。然而,对这一专题很少进行大规模分析,这主要是因为缺乏强大的种族分辨算算法。 确定作者的资料一般不包括作者的种族。因此,需要使用算法,利用关于作者的已知资料,即他们的姓名,推断他们认为的种族。然而,如任何其他算法一样,种族推论过程如果不仔细考虑,就会产生偏见。当研究侧重于了解种族不平等时,这种偏见会损害调查的目标,并可能使不公平现象长期存在下去。这一文章的目的是评估使用不同方法所引入的基于姓名的种族推论偏见。我们使用美国人口普查和抵押申请中的信息来推断美国作者姓名的种族,从而推断科学网络中的美国作者姓名、门槛或持续分布和指责的影响。我们的结果表明,以名称推理为依据的正确性判断,会因种族和种族偏见的不同而不同,从而可以避免按种族和种族、种族、种族、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、肤色、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、语言、

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
45+阅读 · 2020年10月22日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【CCL 2019】刘康、韩先培:做失败科研的10个方法
专知会员服务
25+阅读 · 2019年11月12日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
已删除
将门创投
5+阅读 · 2019年4月15日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Arxiv
0+阅读 · 2021年6月15日
Arxiv
0+阅读 · 2021年6月14日
Arxiv
0+阅读 · 2021年6月14日
Arxiv
0+阅读 · 2021年6月13日
Arxiv
110+阅读 · 2020年2月5日
VIP会员
相关VIP内容
MonoGRNet:单目3D目标检测的通用框架(TPAMI2021)
专知会员服务
17+阅读 · 2021年5月3日
专知会员服务
45+阅读 · 2020年10月22日
【MIT】反偏差对比学习,Debiased Contrastive Learning
专知会员服务
90+阅读 · 2020年7月4日
【CCL 2019】刘康、韩先培:做失败科研的10个方法
专知会员服务
25+阅读 · 2019年11月12日
强化学习最新教程,17页pdf
专知会员服务
171+阅读 · 2019年10月11日
【新书】Python编程基础,669页pdf
专知会员服务
187+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
91+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
5+阅读 · 2019年4月15日
人工智能 | ISAIR 2019诚邀稿件(推荐SCI期刊)
Call4Papers
6+阅读 · 2019年4月1日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Top
微信扫码咨询专知VIP会员