As large language models (LLMs) are adopted into frameworks that grant them the capacity to make real decisions, it is increasingly important to ensure that they are unbiased. In this paper, we argue that the predominant approach of simply removing existing biases from models is not enough. Using a paradigm from the psychology literature, we demonstrate that LLMs can spontaneously develop novel social biases about artificial demographic groups even when no inherent differences exist. These biases result in highly stratified task allocations, which are less fair than assignments by human participants and are exacerbated by newer and larger models. In social science, emergent biases like these have been shown to result from exploration-exploitation trade-offs, where the decision-maker explores too little, allowing early observations to strongly influence impressions about entire demographic groups. To alleviate this effect, we examine a series of interventions targeting model inputs, problem structure, and explicit steering. We find that explicitly incentivizing exploration most robustly reduces stratification, highlighting the need for better multifaceted objectives to mitigate bias. These results reveal that LLMs are not merely passive mirrors of human social biases, but can actively create new ones from experience, raising urgent questions about how these systems will shape societies over time.


翻译:随着大型语言模型(LLMs)被应用于赋予其实际决策能力的框架中,确保其无偏见性变得日益重要。本文认为,当前主流方法仅从模型中消除现有偏见是远远不够的。借鉴心理学文献中的研究范式,我们证明即使不存在内在差异,LLMs仍能对虚构人口群体自发形成全新的社会偏见。这些偏见会导致高度分层的任务分配模式,其公平性低于人类参与者的分配结果,且在新一代更大规模的模型中更为凸显。社会科学研究表明,此类涌现性偏见源于探索-利用的权衡机制:决策者探索不足,使得早期观察结果过度影响其对整个人口群体的认知。为缓解此效应,我们检验了一系列针对模型输入、问题结构和显式引导的干预措施。研究发现,显式激励探索能最稳健地降低分层现象,这凸显了需要构建更完善的多维度目标以减轻偏见。这些结果表明,LLMs并非仅被动反映人类社会偏见,更能从经验中主动创造新的偏见,这引发了关于此类系统将如何随时间推移塑造社会结构的紧迫问题。

0
下载
关闭预览

相关内容

【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员