This paper is a contribution to the Hate Speech and Offensive Content Identification in Indo-European Languages (HASOC) 2021 shared task. Social media today is a hotbed of toxic and hateful conversations, in various languages. Recent news reports have shown that current models struggle to automatically identify hate posted in minority languages. Therefore, efficiently curbing hate speech is a critical challenge and problem of interest. We present a multilingual architecture using state-of-the-art transformer language models to jointly learn hate and offensive speech detection across three languages namely, English, Hindi, and Marathi. On the provided testing corpora, we achieve Macro F1 scores of 0.7996, 0.7748, 0.8651 for sub-task 1A and 0.6268, 0.5603 during the fine-grained classification of sub-task 1B. These results show the efficacy of exploiting a multilingual training scheme.


翻译:本文是对2021年印度-欧洲语言中的仇恨言论和攻击性内容识别(HASOC)共同任务的贡献;今天的社交媒体是各种语言中有毒和仇恨性对话的温床;最近的新闻报道表明,当前模式在自动识别少数民族语言中张贴的仇恨情绪方面进行了斗争;因此,有效遏制仇恨言论是一项关键的挑战和关注问题;我们提出了一个多语种结构,利用最先进的变异语言模型,共同学习英语、印地语和马拉地语这三种语言的仇恨和攻击性言论检测;在所提供的测试中,我们在1A子任务和0.6268子任务分类1B中实现了0.799658651的F1分和0.5603分。这些结果表明利用多语种培训计划的效果。

0
下载
关闭预览

相关内容

专知会员服务
79+阅读 · 2021年7月3日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
综述 | 事件抽取及推理 (上)
开放知识图谱
87+阅读 · 2019年1月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
20+阅读 · 2020年6月8日
VIP会员
相关资讯
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
综述 | 事件抽取及推理 (上)
开放知识图谱
87+阅读 · 2019年1月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员