当前的大规模语言模型可能由于其训练数据而产生政治偏见,当将它们部署在现实环境中时可能会导致严重的问题。
在本文中,我们提出了用于衡量GPT-2生成中的政治偏见的指标,并提出了一种强化学习(RL)框架,用于缓解生成的文本中的政治偏见。通过使用来自词嵌入或分类器的奖励,我们的RL框架无需访问训练数据或要求对模型进行重新训练即可指导去偏见生成。
在对政治偏见敏感的三个属性(性别、位置和主题)的实证实验中,我们的方法根据我们的指标和人工评估很好地减少了偏见,同时保持了可读性和语义一致性。
https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf