大型语言模型(LLM)显示出强大的性能和发展前景,并在现实世界中得到广泛部署。然而,LLM可以从未经处理的训练数据中捕获社会偏见,并将偏见传播到下游任务。不公平的LLM系统具有不良的社会影响和潜在的危害。本文对LLM中公平性的相关研究进行了全面的综述。首先,对于中型LLM,分别从内在偏差和外在偏差的角度介绍了评价指标和去偏差方法。然后,对于大型LLM,介绍了最近的公平性研究,包括公平性评估、偏见原因和去偏差方法。最后,讨论并提出了LLM中公平性发展的挑战和未来方向。

大型语言模型(LLMs),如BERT(Devlin等,2019年),GPT-3(Brown等,2020年)和LLaMA(Touvron等,2023a年),在自然语言处理(NLP)的各种任务中展现出强大的性能和发展前景,并在现实世界中产生越来越广泛的影响。它们的预训练依赖于来自各种来源的大型语料库。许多研究已经验证,LLMs捕捉了未经加工的训练数据中的人类社会偏见,并且这些偏见体现在编码嵌入中,这些嵌入会传递到下游任务中(Garg等,2018年;Sun等,2019年)。不公平的LLM系统会对弱势或边缘化人群做出歧视性、刻板和有偏见的决策,从而引发不良的社会影响和潜在的危害(Blodgett等,2020年;Kumar等,2023年)。语言模型中的社会偏见主要源自于从人类社会收集的训练数据。一方面,这些未经审查的语料库包含大量反映偏见的有害信息,导致语言模型学习到刻板化的行为(Mehrabi等,2022年)。另一方面,训练数据中不同人口群体的标签存在不平衡,分布差异可能导致在假设同质性的模型应用于异质真实数据时产生不公平的预测(Shah、Schwartz和Hovy,2020年)。此外,语言模型学习过程中的人为因素或嵌入中的意外偏见可能引发甚至放大下游偏见(Bansal,2022年)。

根据训练范式,LLMs可以分为预训练和微调范式,以及提示范式。在预训练和微调范式中,LLMs的参数少于十亿个,并且易于调整,例如BERT和RoBERTA(Liu等,2019年),我们称之为中等规模的LLMs。中等规模LLMs中的偏见可以大致分为两种类型:内在偏见和外在偏见(Goldfarb-Tarrant等,2021年),如图1所示。内在偏见对应于LLM编码的嵌入中的偏见,并反映了模型输出表示的公平性。外在偏见对应于下游任务的决策偏见,并反映了模型预测的公平性。在提示范式中,LLMs的参数超过十亿个,并且基于提示进行调整或不调整,例如GPT-4(OpenAI,2023年)和LLaMA-2(Touvron等,2023b年),我们称之为大规模的LLMs。大规模LLMs中的偏见通常在给定特定提示时体现在模型输出中。在本文中,我们对LLMs中的公平性相关研究进行了全面的回顾,总体架构如图2所示。重点关注预训练和微调范式下的中等规模LLMs,我们在第2节介绍了评估指标,在第3节和第4节分别介绍了内在去偏见方法和外在去偏见方法。在第5节中,提供了提示范式下大规模LLMs的公平性,包括公平性评估、偏见原因和去偏见方法。我们还在第6节中讨论了当前面临的挑战和未来发展方向。

成为VIP会员查看完整内容
39

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
73+阅读 · 2023年10月6日
学习地球科学知识理解和利用的基础语言模型
专知会员服务
29+阅读 · 2023年6月10日
基于模型的强化学习综述
专知会员服务
46+阅读 · 2023年1月9日
专知会员服务
36+阅读 · 2021年10月16日
专知会员服务
37+阅读 · 2021年9月15日
专知会员服务
82+阅读 · 2021年8月20日
专知会员服务
14+阅读 · 2021年7月24日
专知会员服务
64+阅读 · 2021年5月29日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
47+阅读 · 2020年10月20日
基于模型的强化学习综述
专知
27+阅读 · 2022年7月13日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
155+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
395+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
137+阅读 · 2023年3月24日
VIP会员
相关VIP内容
大型语言模型在软件工程:调查与待解决的问题
专知会员服务
73+阅读 · 2023年10月6日
学习地球科学知识理解和利用的基础语言模型
专知会员服务
29+阅读 · 2023年6月10日
基于模型的强化学习综述
专知会员服务
46+阅读 · 2023年1月9日
专知会员服务
36+阅读 · 2021年10月16日
专知会员服务
37+阅读 · 2021年9月15日
专知会员服务
82+阅读 · 2021年8月20日
专知会员服务
14+阅读 · 2021年7月24日
专知会员服务
64+阅读 · 2021年5月29日
专知会员服务
59+阅读 · 2021年5月28日
专知会员服务
47+阅读 · 2020年10月20日
相关资讯
基于模型的强化学习综述
专知
27+阅读 · 2022年7月13日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员