The ever growing usage of social media in the recent years has had a direct impact on the increased presence of hate speech and offensive speech in online platforms. Research on effective detection of such content has mainly focused on English and a few other widespread languages, while the leftover majority fail to have the same work put into them and thus cannot benefit from the steady advancements made in the field. In this paper we present \textsc{Shaj}, an annotated Albanian dataset for hate speech and offensive speech that has been constructed from user-generated content on various social media platforms. Its annotation follows the hierarchical schema introduced in OffensEval. The dataset is tested using three different classification models, the best of which achieves an F1 score of 0.77 for the identification of offensive language, 0.64 F1 score for the automatic categorization of offensive types and lastly, 0.52 F1 score for the offensive language target identification.


翻译:近年来,社交媒体的使用不断增加,对网上平台中仇恨言论和攻击性言论的增多产生了直接影响,关于有效发现此类内容的研究主要侧重于英语和其他几种广泛语言,而其余的多数人未能完成同样的工作,因此无法从该领域的稳步进展中受益。在本文中,我们介绍了阿尔巴尼亚语仇恨言论和攻击性言论的附加说明的数据集,该数据集是各种社交媒体平台中用户生成的内容所构建的。该数据集的注解遵循了在阿尔卑斯-埃瓦尔推出的等级结构。该数据集使用三种不同的分类模式进行测试,其中最佳的是在识别冒犯性语言方面达到0.77的F1分,对攻击性语言的自动分类为0.64 F1分,最后是攻击性语言目标识别为0.52 F1分。

0
下载
关闭预览

相关内容

专知会员服务
33+阅读 · 2021年9月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
MMDetection v2.0 训练自己的数据集
CVer
30+阅读 · 2020年8月9日
已删除
AI掘金志
7+阅读 · 2019年7月8日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
Arxiv
0+阅读 · 2021年9月24日
A Survey on GANs for Anomaly Detection
Arxiv
7+阅读 · 2021年9月14日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
20+阅读 · 2020年6月8日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
11+阅读 · 2019年4月15日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
VIP会员
相关资讯
MMDetection v2.0 训练自己的数据集
CVer
30+阅读 · 2020年8月9日
已删除
AI掘金志
7+阅读 · 2019年7月8日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】卷积神经网络类间不平衡问题系统研究
机器学习研究会
6+阅读 · 2017年10月18日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
相关论文
Arxiv
0+阅读 · 2021年9月24日
A Survey on GANs for Anomaly Detection
Arxiv
7+阅读 · 2021年9月14日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
20+阅读 · 2020年6月8日
Object Detection in 20 Years: A Survey
Arxiv
48+阅读 · 2019年5月13日
Arxiv
11+阅读 · 2019年4月15日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Top
微信扫码咨询专知VIP会员