Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved the performances significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, usually with cosine-based metrics. However, lately some works have raised doubts about these metrics showing that even though such metrics report low biases, other tests still show biases. In fact, there is a great variety of bias metrics or tests proposed in the literature without any consensus on the optimal solutions. Yet we lack works that evaluate bias metrics on a theoretical level or elaborate the advantages and disadvantages of different bias metrics. In this work, we will explore different cosine based bias metrics. We formalize a bias definition based on the ideas from previous works and derive conditions for bias metrics. Furthermore, we thoroughly investigate the existing cosine-based metrics and their limitations to show why these metrics can fail to report biases in some cases. Finally, we propose a new metric, SAME, to address the shortcomings of existing metrics and mathematically prove that SAME behaves appropriately.


翻译:过去几年来,单词和句内嵌嵌式被确定为各种NLP任务的文本预处理,并显著改进了绩效。不幸的是,还显示这些嵌入中继承了培训数据中的各种偏见,从而将社会上存在的偏见传给NLP解决方案。许多文件试图量化文字或句内嵌式中的偏见,以评价贬低性偏向方法,或比较不同的嵌入模式,通常使用基于cosine的衡量标准。然而,最近有些工作使人们对这些衡量标准产生怀疑,显示尽管这类指标报告低偏向,但其他测试仍然显示偏差。事实上,文献中提议的偏见衡量标准或测试有很多种,没有就最佳解决方案达成共识。然而,我们缺乏从理论上评价偏差衡量标准或阐述不同偏差衡量标准的利弊的工作。在这项工作中,我们将探讨基于偏差衡量标准的不同参数。我们根据以往工作的想法正式确定了偏差定义,并提出了偏差度衡量标准的条件。此外,我们彻底调查现有的基于正基指标的计量标准以及它们的限制,以表明文献中提出了各种偏差之处,我们最终能够证明这些衡量标准中的偏差。

0
下载
关闭预览

相关内容

因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
机器学习入门的经验与建议
专知会员服务
92+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
38+阅读 · 2021年8月31日
Arxiv
3+阅读 · 2017年9月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
神经网络学习率设置
机器学习研究会
4+阅读 · 2018年3月3日
论文笔记 | How NOT To Evaluate Your Dialogue System
科技创新与创业
13+阅读 · 2017年12月23日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【论文】图上的表示学习综述
机器学习研究会
14+阅读 · 2017年9月24日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员