【AAAI2021】缓解语言模型政治偏见

2021 年 2 月 6 日 专知


当前的大规模语言模型可能由于其训练数据而产生政治偏见,当将它们部署在现实环境中时可能会导致严重的问题。

在本文中,我们提出了用于衡量GPT-2生成中的政治偏见的指标,并提出了一种强化学习(RL)框架,用于缓解生成的文本中的政治偏见。通过使用来自词嵌入或分类器的奖励,我们的RL框架无需访问训练数据或要求对模型进行重新训练即可指导去偏见生成。 

在对政治偏见敏感的三个属性(性别、位置和主题)的实证实验中,我们的方法根据我们的指标和人工评估很好地减少了偏见,同时保持了可读性和语义一致性。

https://www.cs.dartmouth.edu/~rbliu/aaai_copy.pdf


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MPB” 可以获取《【AAAI2021】缓解语言模型政治偏见》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

持续学习最新综述论文,29页pdf
专知会员服务
117+阅读 · 2021年4月22日
【AAAI2021】以事件为中心的自然语言理解,256页ppt
专知会员服务
72+阅读 · 2021年2月8日
专知会员服务
26+阅读 · 2021年2月2日
专知会员服务
13+阅读 · 2021年1月18日
【AAAI2021】记忆门控循环网络
专知会员服务
48+阅读 · 2020年12月28日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
46+阅读 · 2020年12月26日
专知会员服务
107+阅读 · 2020年12月21日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
39+阅读 · 2020年12月19日
【AAAI2021】 层次图胶囊网络
专知会员服务
81+阅读 · 2020年12月18日
专知会员服务
23+阅读 · 2020年12月16日
联邦学习安全与隐私保护研究综述
专知
12+阅读 · 2020年8月7日
Cold-start Sequential Recommendation via Meta Learner
Arxiv
15+阅读 · 2020年12月10日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
Arxiv
23+阅读 · 2018年8月3日
Arxiv
3+阅读 · 2018年4月10日
VIP会员
相关VIP内容
持续学习最新综述论文,29页pdf
专知会员服务
117+阅读 · 2021年4月22日
【AAAI2021】以事件为中心的自然语言理解,256页ppt
专知会员服务
72+阅读 · 2021年2月8日
专知会员服务
26+阅读 · 2021年2月2日
专知会员服务
13+阅读 · 2021年1月18日
【AAAI2021】记忆门控循环网络
专知会员服务
48+阅读 · 2020年12月28日
【AAAI2021】低资源医疗对话生成的图演化元学习
专知会员服务
46+阅读 · 2020年12月26日
专知会员服务
107+阅读 · 2020年12月21日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
39+阅读 · 2020年12月19日
【AAAI2021】 层次图胶囊网络
专知会员服务
81+阅读 · 2020年12月18日
专知会员服务
23+阅读 · 2020年12月16日
Top
微信扫码咨询专知VIP会员