Medical systems in general, and patient treatment decisions and outcomes in particular, are affected by bias based on gender and other demographic elements. As language models are increasingly applied to medicine, there is a growing interest in building algorithmic fairness into processes impacting patient care. Much of the work addressing this question has focused on biases encoded in language models -- statistical estimates of the relationships between concepts derived from distant reading of corpora. Building on this work, we investigate how word choices made by healthcare practitioners and language models interact with regards to bias. We identify and remove gendered language from two clinical-note datasets and describe a new debiasing procedure using BERT-based gender classifiers. We show minimal degradation in health condition classification tasks for low- to medium-levels of bias removal via data augmentation. Finally, we compare the bias semantically encoded in the language models with the bias empirically observed in health records. This work outlines an interpretable approach for using data augmentation to identify and reduce the potential for bias in natural language processing pipelines.


翻译:总的来说,医疗系统,特别是病人治疗决定和结果受到基于性别和其他人口因素的偏见的影响。随着语言模型越来越多地应用于医学,人们越来越关心将算法公平性纳入影响病人护理的过程。这个问题的许多工作都集中在语言模型中编码的偏见 -- -- 对从远距离阅读Corpora得出的概念之间的关系的统计估计。我们在这项工作的基础上,调查保健从业人员和语言模型所作的字选与偏见的相互作用。我们从两个临床注解数据集中找出并删除了性别语言,并用基于BERT的性别分类器描述一种新的偏向程序。我们显示,通过数据扩增,对中、低程度的偏向消除的健康状况分类任务进行最小的退化。最后,我们将语言模型中的偏向性分类与在健康记录中观察到的偏向性进行了比较。这项工作概述了一种可解释的方法,即利用数据增强来查明和减少自然语言处理管道中偏向的可能性。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2020年9月6日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
15+阅读 · 2020年12月17日
Arxiv
3+阅读 · 2018年2月22日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员