每天都会产生大量的书面和转录媒体,如果没有大量的人力,情报分析师不可能对其进行筛选。然而,多语言模型可以通过解析非相关文章,帮助情报分析师选择与其问题集相关的媒体文章,即使这些文章是用外语或低资源语言撰写的。全球事件语言和语调数据库(GDELT)是一个近乎实时的媒体数据库,每 15 分钟就会发布新的开源文章集,但其自动事件编码往往会导致大量假阳性样本。要创建一个有效的多语言语言模型来解析开源文章,就必须对开源文章进行准确的分类和标记训练。本论文使用综合危机预警系统(ICEWS)中经自动编码和人工验证的开源文章作为训练数据,对多语言模型进行微调,以识别 GDELT 数据库中的假阳性开源文章。经过微调的多语言模型被叠加到 GDELT 搜索算法上,以消除许多误报结果,使情报分析人员能够在相关公开源文章发表后几分钟内获得更多信息,并能更及时地收集相关信息。