Pre-training large neural language models, such as BERT, has led to impressive gains on many natural language processing (NLP) tasks. Although this method has proven to be effective for many domains, it might not always provide desirable benefits. In this paper, we study the effects of hateful pre-training on low-resource hate speech classification tasks. While previous studies on the English language have emphasized its importance, we aim to augment their observations with some non-obvious insights. We evaluate different variations of tweet-based BERT models pre-trained on hateful, non-hateful, and mixed subsets of a 40M tweet dataset. This evaluation is carried out for the Indian languages Hindi and Marathi. This paper is empirical evidence that hateful pre-training is not the best pre-training option for hate speech detection. We show that pre-training on non-hateful text from the target domain provides similar or better results. Further, we introduce HindTweetBERT and MahaTweetBERT, the first publicly available BERT models pre-trained on Hindi and Marathi tweets, respectively. We show that they provide state-of-the-art performance on hate speech classification tasks. We also release hateful BERT for the two languages and a gold hate speech evaluation benchmark HateEval-Hi and HateEval-Mr consisting of manually labeled 2000 tweets each. The models and data are available at https://github.com/l3cube-pune/MarathiNLP .
翻译:培训前的大型神经语言模型,如BERT等,已经在许多自然语言处理(NLP)任务上取得了令人印象深刻的进展。虽然这一方法已经证明对许多领域有效,但可能并非总能带来可取的好处。在本文中,我们研究了低资源仇恨言论分类方面令人憎恶的培训前训练前低资源仇恨言论分类任务的影响。虽然以前关于英语语言的研究强调了其重要性,但我们的目标是通过一些非明显的洞察力来增加其观察。我们评估基于推特的BERT模型的不同变异,这些变异是以仇恨性、非仇恨性、40M推文数据集的混合子。这一评价是针对印度语印地语和马拉地语进行的。本文是实证证据,表明仇恨性培训前训练并非检测仇恨言论的最佳培训前选项。我们展示了目标领域非恶意文本培训前的类似或更好的结果。我们介绍了HindTwevalBERT和MahaTweetBERT, 首次公开提供的关于印地和马拉地推特数据集的模型。我们还展示了“我们”的“我们”的“我们”的“结果”和“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的“我们”的”的“我们”的“我们”的”的“我们”的“我们”的“我们”的”的“我们”的”的“的”的”的“的”的”的“我们的“我们”的“我们”的”的“我们”的”的“的”的“的”的”的“的”的”的”的”的“我们的”的”的”的”的“我们的”的“我们的“我们的”的”的“的”的”的”的“的”的”的”的“的”的“我们的“的”的”的“的”的”的”的”的“我们的”的”的”的”的”的“我们的“我们的“的”的“我们的“我们的”的”的”的”的”的”的”的”的”的“我们的“我们的“我们的”的”的“我们的”的”的“我们的“我们的”的”的“