Large Language Models (LLMs) inherit explicit and implicit biases from their training datasets. Identifying and mitigating biases in LLMs is crucial to ensure fair outputs, as they can perpetuate harmful stereotypes and misinformation. This study highlights the need to address biases in LLMs amid growing generative AI. We studied bias-specific benchmarks such as StereoSet and CrowSPairs to evaluate the existence of various biases in multiple generative models such as BERT and GPT 3.5. We proposed an automated Bias-Identification Framework to recognize various social biases in LLMs such as gender, race, profession, and religion. We adopted a two-pronged approach to detect explicit and implicit biases in text data. Results indicated fine-tuned models struggle with gender biases but excelled at identifying and avoiding racial biases. Our findings illustrated that despite having some success, LLMs often over-relied on keywords. To illuminate the capability of the analyzed LLMs in detecting implicit biases, we employed Bag-of-Words analysis and unveiled indications of implicit stereotyping within the vocabulary. To bolster the model performance, we applied an enhancement strategy involving fine-tuning models using prompting techniques and data augmentation of the bias benchmarks. The fine-tuned models exhibited promising adaptability during cross-dataset testing and significantly enhanced performance on implicit bias benchmarks, with performance gains of up to 20%.


翻译:大型语言模型(LLMs)从其训练数据集中继承了显性与隐性偏见。识别并缓解LLMs中的偏见对于确保其输出公平性至关重要,因为它们可能延续有害的刻板印象与错误信息。本研究强调了在生成式人工智能日益发展的背景下解决LLMs偏见的必要性。我们采用StereoSet和CrowSPairs等偏见专项基准,评估了BERT、GPT-3.5等多种生成模型中各类偏见的存在情况。我们提出了一个自动化偏见识别框架,用于检测LLMs中涉及性别、种族、职业与宗教等维度的社会偏见。通过双轨方法,我们实现了对文本数据中显性与隐性偏见的检测。结果表明,经过微调的模型在应对性别偏见方面存在困难,但在识别与规避种族偏见方面表现优异。研究发现,尽管取得了一定成效,LLMs仍过度依赖关键词识别。为揭示所分析LLMs检测隐性偏见的能力,我们采用词袋分析法,揭示了词汇中存在的隐性刻板印象迹象。为提升模型性能,我们实施了增强策略,包括基于提示技术的模型微调及偏见基准的数据增强。经微调的模型在跨数据集测试中展现出良好的适应性,并在隐性偏见基准上实现显著性能提升,最高增益达20%。

0
下载
关闭预览

相关内容

Deep Research(深度研究):系统性综述
专知会员服务
42+阅读 · 12月3日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
14+阅读 · 11月25日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
NLP自然语言处理(二)——基础文本分析
乐享数据DataScientists
12+阅读 · 2017年2月7日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员