【AAAI2021】缓解语言模型政治偏见

当前的大规模语言模型可能由于其训练数据而产生政治偏见，当将它们部署在现实环境中时可能会导致严重的问题。

在本文中，我们提出了用于衡量GPT-2生成中的政治偏见的指标，并提出了一种强化学习（RL）框架，用于缓解生成的文本中的政治偏见。通过使用来自词嵌入或分类器的奖励，我们的RL框架无需访问训练数据或要求对模型进行重新训练即可指导去偏见生成。

在对政治偏见敏感的三个属性（性别、位置和主题）的实证实验中，我们的方法根据我们的指标和人工评估很好地减少了偏见，同时保持了可读性和语义一致性。

https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf

成为VIP会员查看完整内容

相关内容

AAAI 2021

关注 15

【AAAI2021 Tutorial】工业界负责任的人工智能，262页ppt

专知会员服务

116+阅读 · 2021年2月7日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】记忆门控循环网络

专知会员服务

50+阅读 · 2020年12月28日

【AAAI2021】层次推理图神经网络

专知会员服务

70+阅读 · 2020年12月27日

【AAAI2021】“可瘦身”的生成式对抗网络

专知会员服务

13+阅读 · 2020年12月12日

热点！虚假新闻检测综述

专知

111+阅读 · 2019年2月26日

机器学习中如何处理不平衡数据？

机器之心

13+阅读 · 2019年2月17日

自动文本摘要

AI研习社

21+阅读 · 2018年10月27日

每日论文 | 谷歌目标追踪大赛第二名方案；端到端几何推理发现隐藏3D锚点；让强化学习进行启发式学习

论智

4+阅读 · 2018年9月12日

NAACL研讨会深思：NLP泛化模型背后的虚假和脆弱

论智

4+阅读 · 2018年8月24日

Subword Pooling Makes a Difference

Arxiv

0+阅读 · 2021年3月29日

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

Arxiv

3+阅读 · 2020年3月17日

Commonsense Knowledge + BERT for Level 2 Reading Comprehension Ability Test

Arxiv

4+阅读 · 2019年9月8日

Sogou Machine Reading Comprehension Toolkit

Arxiv

8+阅读 · 2019年3月28日

Sockeye: A Toolkit for Neural Machine Translation

Arxiv

7+阅读 · 2018年6月1日