The understanding of an offense is subjective and people may have different opinions about the offensiveness of a comment. Moreover, offenses and hate speech may occur through sarcasm, which hides the real intention of the comment and makes the decision of the annotators more confusing. Therefore, providing a well-structured annotation process is crucial to a better understanding of hate speech and offensive language phenomena, as well as supplying better performance for machine learning classifiers. In this paper, we describe a corpus annotation process proposed by a linguist, a hate speech specialist, and machine learning engineers in order to support the identification of hate speech and offensive language on social media. In addition, we provide the first robust dataset of this kind for the Brazilian Portuguese language. The corpus was collected from Instagram posts of political personalities and manually annotated, being composed by 7,000 annotated documents according to three different layers: a binary classification (offensive versus non-offensive language), the level of offense (highly offensive, moderately offensive, and slightly offensive messages), and the identification regarding the target of the discriminatory content (xenophobia, racism, homophobia, sexism, religious intolerance, partyism, apology to the dictatorship, antisemitism, and fatphobia). Each comment was annotated by three different annotators and achieved high inter-annotator agreement. The proposed annotation approach is also language and domain-independent nevertheless it is currently customized for Brazilian Portuguese.


翻译:对犯罪的理解是主观的,人们可能对评论的冒犯性有不同的看法。此外,犯罪和仇恨言论可能通过讽刺来发生,这掩盖了评论的真实意图,使注解员的决定更加混乱。因此,提供一个结构完善的注解过程对于更好地理解仇恨言论和冒犯性语言现象至关重要,并且为机器学习分类者提供更好的表现。在本文中,我们描述了语言学家、仇恨言论专家和机器学习工程师提议的一个内容批注过程,以支持识别仇恨言论和社交媒体上的冒犯性语言。此外,我们为巴西葡萄牙语提供了第一个这类类型的有力数据组。这套材料是从Instagram政治人物和手动附加说明性文章中收集的,由7 000份附加说明性文件组成,分为三个不同层次:二进制分类(冒犯性与非冒犯性语言)、提议的冒犯程度(高度冒犯性、中度攻击性和轻微攻击性信息),以及针对歧视性内容的识别(仇恨性、种族主义、仇视同性恋、仇视性恐惧性、性仇视性仇视性、宗教、宗教不宽容性言论)也是通过一种高调和高调制实现的。

0
下载
关闭预览

相关内容

【耶鲁】数据结构与编程技术,656页pdf
专知会员服务
56+阅读 · 2021年4月26日
【2020新书】Python文本分析,104页pdf
专知会员服务
99+阅读 · 2020年12月23日
【2020新书】数据结构与数据表示指南,112页pdf
专知会员服务
83+阅读 · 2020年10月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
上百份文字的检测与识别资源,包含数据集、code和paper
数据挖掘入门与实战
17+阅读 · 2017年12月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Arxiv
0+阅读 · 2021年6月28日
Arxiv
0+阅读 · 2021年6月25日
Arxiv
0+阅读 · 2021年6月24日
Arxiv
5+阅读 · 2018年1月30日
VIP会员
相关VIP内容
【耶鲁】数据结构与编程技术,656页pdf
专知会员服务
56+阅读 · 2021年4月26日
【2020新书】Python文本分析,104页pdf
专知会员服务
99+阅读 · 2020年12月23日
【2020新书】数据结构与数据表示指南,112页pdf
专知会员服务
83+阅读 · 2020年10月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
Top
微信扫码咨询专知VIP会员