大型语言模型(LLMs)会从其训练数据集中继承显性与隐性偏见。识别并减轻这些偏见对于确保输出结果的公平性至关重要,因为这些偏见可能延续有害的刻板印象与错误信息。本研究强调了在生成式人工智能迅速发展背景下应对 LLM 偏见的必要性。我们基于偏见分析基准(如 StereoSet 和 CrowSPairs),评估了多种生成式模型(如 BERT 与 GPT-3.5)中各种偏见的存在情况。

我们提出了一种自动化偏见识别框架,用于检测 LLM 中的多类社会偏见,如性别、种族、职业与宗教偏见。我们采用双路径方法来识别文本数据中的显性偏见与隐性偏见。实验结果表明,经过微调的模型在应对性别偏见方面表现欠佳,但在识别并避免种族偏见方面表现更优。研究发现,尽管某些方面取得了一定进展,LLMs 仍然过度依赖关键词。

为了揭示所分析的 LLM 在检测隐性偏见方面的能力,我们进一步采用词袋(Bag-of-Words)分析,并发现词汇中存在隐性刻板印象的迹象。为增强模型性能,我们基于提示工程与偏见基准数据增强对模型进行微调。微调后的模型在跨数据集测试中表现出良好的适应性,并在隐性偏见基准上取得显著提升,性能提升幅度高达 20%。

自然语言处理(NLP)的发展使大型语言模型(LLMs)在各类行业应用中变得无处不在。这些模型被用于提升数据可访问性、辅助数据解释,并基于数据分析提出解决方案(Bommasani et al., 2022; Git, 2023; OpenAI, 2023a)。其应用范围覆盖多个领域,例如在医疗保健中,通过 LLMs 提升患者数据分析能力;在软件开发等商业场景中,Github Copilot 等工具用于辅助代码生成(Git, 2023)。这种广泛应用不仅出现在企业环境中,也深入渗透到教育领域(Rudolph, 2023; Tlili et al., 2023; Zhai, 2022; Bommineni et al., 2023; Baidoo-Anu and Ansah, 2023; Qadir, 2022),例如用来支持有学习障碍的儿童(Rane, 2023)。然而,随着应用影响力不断扩大,也带来了确保模型输出正确且无偏的重要责任(Tamkin et al., 2021; Bai et al., 2022; Chang et al., 2024)。

由于大多数 LLM 模型是在来自互联网的数据上训练的,包括网页、书籍、文章和论坛,因此这些数据很大一部分基于观点,且未必完全包含真实、准确的事实信息(Common Crawl Foundation, 2024; Bender et al., 2021; Kenton et al., 2021; Weidinger et al., 2021; Gehman et al., 2020; Chang et al., 2024; Cho et al., 2019)。此外,LLMs 普遍基于自监督或无监督学习技术,限制了对模型认为重要的模式、数据点和权重的有效控制能力(Huang et al., 2023)。这导致模型可能产生错误的、有偏的、误导性的或有毒的信息。在广为使用的模型中,可以从 RealToxicityPrompts 数据集以及对 ChatGPT 的越狱攻击中观察到这些有毒输出(Zhang et al., 2023; Gehman et al., 2020)。

即使经过大规模的预处理和清理操作,移除包含极端有害或偏倚内容的数据点,也无法保证模型不会学习到某些潜在的偏倚模式(Mikołajczyk-Bareła, 2023; Roselli et al., 2019; Bender et al., 2021)。残留偏见与算法偏见仍可能出现(Lee et al., 2019)。偏见之所以难以避免,是因为任何被人类影响或直接由人类创建的系统,都会不可避免地受到创作者偏见的影响,无论这些偏见是有意还是无意的。因此,大数据与 LLMs 天生就充满了各种形式的偏见(Bender et al., 2021; Roselli et al., 2019; Mikołajczyk-Bareła, 2023)。这些偏见会带来有害的负面影响,如资源分配偏见、表征偏见和脆弱性偏见(Sheng et al., 2021);它们可能传播与强化既有刻板印象,阻碍特定人群使用相关资源,并使某些群体更容易受到操纵与伤害(Prates et al., 2019; Hashimoto et al., 2018; Levy et al., 2021)。因此,刻画 LLMs 中的偏见在当前 AI 与机器学习研究中具有重要意义。

在本文中,我们基于涵盖年龄状况、残障、性别、国籍、外貌、职业、宗教以及社会经济地位等在内的大量参数,对不同模型的偏见进行了分析。研究对象包括多种模型,如 BERT、DistilBERT、GPT-3.5 等,以识别并刻画其中存在的偏见。我们使用 StereoSet 和 CrowSPairs 两个基准数据集来分析每个模型的偏见程度。作为偏见缓解策略,我们采用数据增强方法扩展用于微调 LLMs 的训练数据。图 1 给出了我们提出方法的高层概览,展示了我们的工作流程,并作为偏见刻画框架的基础。该框架聚焦于减少训练数据中的偏见,并对大型语言模型(LLMs)在微调前后的表现进行比较分析。

成为VIP会员查看完整内容
12

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大语言模型在组合优化中的应用:系统综述
专知会员服务
35+阅读 · 7月11日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
86+阅读 · 2024年5月3日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
93+阅读 · 2024年2月17日
《大型语言模型自然语言生成评估》综述
专知会员服务
71+阅读 · 2024年1月20日
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
77+阅读 · 2023年10月6日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
96+阅读 · 2021年11月4日
专知会员服务
123+阅读 · 2020年12月9日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
174+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
493+阅读 · 2023年3月31日
Arxiv
81+阅读 · 2023年3月26日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大语言模型在组合优化中的应用:系统综述
专知会员服务
35+阅读 · 7月11日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
86+阅读 · 2024年5月3日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
大型语言模型的模型压缩与高效推理:综述
专知会员服务
93+阅读 · 2024年2月17日
《大型语言模型自然语言生成评估》综述
专知会员服务
71+阅读 · 2024年1月20日
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
77+阅读 · 2023年10月6日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
96+阅读 · 2021年11月4日
专知会员服务
123+阅读 · 2020年12月9日
相关资讯
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员