在冲突发生前预测冲突的能力可以帮助阻止集体暴力的爆发,避免人类痛苦。现有的方法使用统计学和机器学习模型,甚至社会网络分析技术;然而,它们通常局限于特定区域的长期预测,并且只基于少数语言。从社交媒体中多种或混合语言的信号中理解集体暴力仍然没有得到充分研究。在这项工作中,我们构建了一个多语种语言模型(MLLM),可以接受社交媒体中任何语言的输入,这个模型在本质上是语言无关的。这项研究的目的有两个方面。首先,它旨在从存档的Twitter数据中收集一个多语言暴力语料库,使用一套拟议的启发式方法,说明过去和未来暴力事件周围的空间-时间特征。其次,它试图比较传统机器学习分类器与深度学习MLLMs在预测与过去和未来暴力事件发生有关的消息类别方面的性能。我们的研究结果表明,MLLMs在预测准确性方面大大超过了传统的ML模型。我们工作的一个主要贡献是,军事指挥部现在有了一个工具来评估和学习所有人类语言中的暴力语言。最后,我们公开了数据、代码和模型。
如今,敌对信息的传播在互联网上越来越普遍,尤其是在社交媒体上,这个问题正成为一个全球性的风险。事实证明,"社交媒体的渗透范围 "对集体暴力的爆发有积极影响(Warren 2015, p. 297),这意味着社交媒体可能为即将发生的暴力信号提供有用的来源。在这篇论文中,我们构建了一个模型,可以接受来自以任何语言编写的社交媒体信息的输入,并学习将话语形式与集体暴力事件的时间和地点联系起来。通过研究以语言无关的方式运作的多语言语言模型(MLLM),我们产生了矢量嵌入,以捕捉更可能出现在暴力事件之前和之后的时期的语义元素。我们的目的是提供一个有用的暴力话语表征,这可能被证明有利于通过社交媒体预测暴力。使用MLLMs的主要动机是它们能够进行零距离的跨语言迁移学习,在这种情况下,"在一种语言上进行了微调的模型可以应用于其他语言,而不需要任何进一步的训练"(Tunstall等人,2022,第87页)。这种能力在社交媒体分析中证明是特别有益的,因为社交媒体分析必须涵盖广泛的语言多样性,以便扩展到全球分析。
我们工作的目的是比较三种MLLMs--LaBSE、smallerLaBSE和XLM-T--的性能,它们被训练来预测与过去和未来发生的暴力事件有关的消息类别。LaBSE是谷歌开发的一个多语言嵌入模型,它在从维基百科和Common Crawl语料库(CC)中提取的语料中进行了109种不同语言的预训练(Feng等人,2020)。Smaller-LaBSE只是LaBSE的一个小版本,参数较少,针对15种语言(Ukjae 2021)。相比之下,XLM-T是一个专门针对100种语言的Twitter数据训练的MLLM(Barbieri等人,2020)。所有这些模型都可以在Hugging Face Hub上找到,这是一个用于分享自然语言处理(NLP)研究社区开发的模型的开源库。
我们的实验结果产生了四个值得注意的发现。第一个发现证实了我们的假设,即推文中的暴力前信号在未来暴力事件发生的地点附近更强。随机森林(RF)分类器的标签式接收器操作特征(ROC)图显示,接收器操作特征曲线(ROC)--ROC曲线下的面积(AUC)得分随着空间距离的增加而减少,这表明集体暴力信号的存在在暴力事件发生地附近更强。第二个发现是,在我们的基准中使用的七个不同指标中,集合多标签分类器是表现最好的传统机器学习(ML)模型。此外,使用问题转换方法训练的合集模型不仅比它们的问题适应性更好,而且计算速度也更快。同样,从XLM-T中提取的特征比LaBSE和更小的LaBSE产生更好的性能。因此,表现最好的传统ML算法是在XLM-T特征上训练的随机森林(RF),ROC-AUC分数为0.6028。
第三个发现表明,当前馈分类器在较小的LaBSE、LaBSE和XLM-T的基础上进行训练时,它们在ROC-AUC得分方面产生了相似的表现,每个得分大约为0.73。在内存占用方面,由于较小的词汇量和较少的可训练参数,smaller-LaBSE是表现最好的模型。最后,第四个发现,也就是前两个发现,深度学习MLLMs比传统ML模型的表现要好得多,通过ROC-AUC分数显示,样本外的预测准确性要高13%。这最后一个证据表明,在预测哪些形式的话语与集体暴力关系最密切方面,深度学习MLLMs比传统ML模型表现更好。
我们的结果表明,社交媒体内容和过去的集体暴力事件之间存在着预测关系,无论对话中使用的是什么语言。我们认为,我们的研究可以作为军队中有用的决策辅助工具,在战争的作战和战略层面上预测全球范围内的暴力。我们工作的一个主要贡献是,军事指挥部现在有一个工具来评估和学习所有人类语言中的暴力语言,从而减少社交媒体中敌对信息运动的负面影响。最后,我们将代码、数据和模型公开在https://huggingface.co/m2im/,希望这能帮助研究界推进其在冲突预测方面的努力,此外还能使我们的作战人员将该模型作为一种工具来加强对信息环境的理解。