Sophisticated language models such as OpenAI's GPT-3 can generate hateful text that targets marginalized groups. Given this capacity, we are interested in whether large language models can be used to identify hate speech and classify text as sexist or racist? We use GPT-3 to identify sexist and racist text passages with zero-, one-, and few-shot learning. We find that with zero- and one-shot learning, GPT-3 can identify sexist or racist text with an accuracy between 48 per cent and 69 per cent. With few-shot learning and an instruction included in the prompt, the model's accuracy can be as high as 78 per cent. We conclude that large language models have a role to play in hate speech detection, and that with further development language models could be used to counter hate speech and even self-police.


翻译:OpenAI的GPT-3等精致的语言模型能够产生针对边缘化群体的仇恨文字。鉴于这一能力,我们有兴趣了解大型语言模型是否可以用来识别仇恨言论,并将文字归类为性别歧视或种族主义?我们用GPT-3来识别带有性别歧视和种族主义文字的段落,零、一、零、少学。我们发现,通过零和一手学习,GPT-3能够识别出具有性别歧视或种族主义文字,精确度介于48%至69%之间。在短短的学习和短短的教学中,该模型的准确性可能高达78%。我们的结论是,大型语言模型在检测仇恨言论方面可以发挥作用,而有了进一步发展的语言模型,可以用来抵制仇恨言论,甚至自律。

0
下载
关闭预览

相关内容

专知会员服务
94+阅读 · 2021年2月24日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
4+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
13+阅读 · 2020年10月19日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
11+阅读 · 2019年4月15日
Arxiv
9+阅读 · 2018年4月12日
VIP会员
相关资讯
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
4+阅读 · 2019年10月11日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Top
微信扫码咨询专知VIP会员