Recently, more and more research has focused on addressing bias in text classification models. However, existing research mainly focuses on the fairness of monolingual text classification models, and research on fairness for multilingual text classification is still very limited. In this paper, we focus on the task of multilingual text classification and propose a debiasing framework for multilingual text classification based on contrastive learning. Our proposed method does not rely on any external language resources and can be extended to any other languages. The model contains four modules: multilingual text representation module, language fusion module, text debiasing module, and text classification module. The multilingual text representation module uses a multilingual pre-trained language model to represent the text, the language fusion module makes the semantic spaces of different languages tend to be consistent through contrastive learning, and the text debiasing module uses contrastive learning to make the model unable to identify sensitive attributes' information. The text classification module completes the basic tasks of multilingual text classification. In addition, the existing research on the fairness of multilingual text classification is relatively simple in the evaluation mode. The evaluation method of fairness is the same as the monolingual equality difference evaluation method, that is, the evaluation is performed on a single language. We propose a multi-dimensional fairness evaluation framework for multilingual text classification, which evaluates the model's monolingual equality difference, multilingual equality difference, multilingual equality performance difference, and destructiveness of the fairness strategy. We hope that our work can provide a more general debiasing method and a more comprehensive evaluation framework for multilingual text fairness tasks.


翻译:近年来,越来越多的研究关注于解决文本分类模型中的偏见问题。然而,现有的研究主要集中在单语言文本分类模型的公平性上,而针对多语言文本分类的公平性研究仍然非常有限。在本文中,我们将重点放在多语言文本分类任务上,并提出了一种基于对比学习的多语言文本分类去偏见框架。我们提出的方法不依赖于任何外部语言资源,并可扩展到任何其他语言。该模型包含四个模块:多语言文本表示模块、语言融合模块、文本去偏见模块和文本分类模块。多语言文本表示模块使用多语言预训练语言模型来表示文本,语言融合模块通过对比学习使不同语言的语义空间趋于一致,文本去偏见模块使用对比学习使模型无法识别敏感属性信息。文本分类模块完成了多语言文本分类的基本任务。此外,现有的多语言文本分类公平性研究在评估模式上相对简单。公平性的评估方法与单语言相等差异的评估方法相同,即在单一语言上进行评估。我们提出了一种多维公平性评估框架,用于评估模型的单语言相等差异、多语言相等差异、多语言相等表现差异和公平策略的破坏性。我们希望我们的工作能够为多语言文本公平性任务提供更通用的去偏见方法和更全面的评估框架。

0
下载
关闭预览

相关内容

文本分类(Text Classification)任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
17+阅读 · 2022年6月14日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
NAACL 2022 | 机器翻译SOTA模型的蒸馏
PaperWeekly
1+阅读 · 2022年6月28日
NLP不同任务Tensorflow深度学习模型大全
专知
10+阅读 · 2019年3月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月17日
Interpretable CNNs for Object Classification
Arxiv
20+阅读 · 2020年3月12日
Arxiv
26+阅读 · 2018年2月27日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员