We investigate how independent demographic bias mechanisms are from general demographic recognition in language models. Using a multi-task evaluation setup where demographics are associated with names, professions, and education levels, we measure whether models can be debiased while preserving demographic detection capabilities. We compare attribution-based and correlation-based methods for locating bias features. We find that targeted sparse autoencoder feature ablations in Gemma-2-9B reduce bias without degrading recognition performance: attribution-based ablations mitigate race and gender profession stereotypes while preserving name recognition accuracy, whereas correlation-based ablations are more effective for education bias. Qualitative analysis further reveals that removing attribution features in education tasks induces ``prior collapse'', thus increasing overall bias. This highlights the need for dimension-specific interventions. Overall, our results show that demographic bias arises from task-specific mechanisms rather than absolute demographic markers, and that mechanistic inference-time interventions can enable surgical debiasing without compromising core model capabilities.


翻译:本研究探讨语言模型中人口统计偏见机制与通用人口统计识别能力之间的独立性。通过构建多任务评估框架——将人口统计特征与姓名、职业和教育水平相关联,我们测量了模型在保持人口统计检测能力的同时能否实现去偏见化。我们比较了基于归因和基于相关性的偏见特征定位方法。研究发现,在Gemma-2-9B模型中实施定向稀疏自编码器特征消融可在不降低识别性能的前提下减少偏见:基于归因的消融能缓解种族和性别职业刻板印象,同时保持姓名识别准确率;而基于相关性的消融对教育偏见更为有效。定性分析进一步揭示,在教育任务中移除归因特征会引发"先验崩溃",反而增加整体偏见。这凸显了维度特异性干预的必要性。总体而言,我们的结果表明:人口统计偏见源于任务特异性机制而非绝对的人口统计标记,且基于机制的推理时干预能够实现精准去偏见,同时保持模型核心能力不受损害。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
48+阅读 · 11月21日
《人-AI协作设计:统计量方法》最新77页
专知会员服务
27+阅读 · 5月3日
【NeurIPS2022】VICRegL:局部视觉特征的自监督学习
专知会员服务
32+阅读 · 2022年10月6日
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关资讯
[CVPR 2021] 序列到序列对比学习的文本识别
专知
10+阅读 · 2021年4月14日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
Mask R-CNN 论文笔记
统计学习与视觉计算组
11+阅读 · 2018年3月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员