The ever growing usage of social media in the recent years has had a direct impact on the increased presence of hate speech and offensive speech in online platforms. Research on effective detection of such content has mainly focused on English and a few other widespread languages, while the leftover majority fail to have the same work put into them and thus cannot benefit from the steady advancements made in the field. In this paper we present \textsc{Shaj}, an annotated Albanian dataset for hate speech and offensive speech that has been constructed from user-generated content on various social media platforms. Its annotation follows the hierarchical schema introduced in OffensEval. The dataset is tested using three different classification models, the best of which achieves an F1 score of 0.77 for the identification of offensive language, 0.64 F1 score for the automatic categorization of offensive types and lastly, 0.52 F1 score for the offensive language target identification.


翻译:近年来,社交媒体的使用不断增加,对网上平台中仇恨言论和攻击性言论的增多产生了直接影响,关于有效发现此类内容的研究主要侧重于英语和其他几种广泛语言,而其余的多数人未能完成同样的工作,因此无法从该领域的稳步进展中受益。在本文中,我们介绍了阿尔巴尼亚语仇恨言论和攻击性言论的附加说明的数据集,该数据集是各种社交媒体平台中用户生成的内容所构建的。该数据集的注解遵循了在阿尔卑斯-埃瓦尔推出的等级结构。该数据集使用三种不同的分类模式进行测试,其中最佳的是在识别冒犯性语言方面达到0.77的F1分,对攻击性语言的自动分类为0.64 F1分,最后是攻击性语言目标识别为0.52 F1分。

0
下载
关闭预览

相关内容

专知会员服务
32+阅读 · 2021年9月16日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
13+阅读 · 2021年3月3日
Arxiv
9+阅读 · 2021年3月3日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
Arxiv
26+阅读 · 2020年2月21日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
相关VIP内容
专知会员服务
32+阅读 · 2021年9月16日
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
相关论文
Arxiv
13+阅读 · 2021年3月3日
Arxiv
9+阅读 · 2021年3月3日
Few-shot Scene-adaptive Anomaly Detection
Arxiv
8+阅读 · 2020年7月15日
Arxiv
26+阅读 · 2020年2月21日
Zero-Shot Object Detection
Arxiv
9+阅读 · 2018年7月27日
Arxiv
5+阅读 · 2018年5月16日
Arxiv
7+阅读 · 2018年3月19日
Top
微信扫码咨询专知VIP会员