有关舆论操纵活动的 NLP 研究主要集中于检测假新闻和虚假信息等公开策略。然而,正在进行的俄乌战争中的信息操纵活动体现了政府和媒体如何运用更细微的策略。本文发布了一个新的数据集 VoynaSlov,其中包含俄罗斯媒体在 Twitter 和 VKontakte 上发布的 3800 多万条帖子,以及 2022 年俄乌战争前夕和战争期间的公众活动和回应。我们在 VoynaSlov 上应用了标准的和最近开发的 NLP 模型,以研究议程设置、框架和引导(信息操纵的几种基本策略),并揭示了不同媒体控制、社交媒体平台和时间之间的差异。对这些媒体效应的研究以及对当前方法局限性的广泛讨论,鼓励了进一步开发 NLP 模型,以了解新兴危机中的信息操纵,以及其他现实世界和跨学科任务。
图 1:创建了 VoynaSlov,这是一个包含俄罗斯新闻机构在社交媒体上发布的帖子和公众回复的数据集。上图是 VoynaSlov 中隶属于国家的媒体 "今日俄罗斯 "的 VK 帖子示例,以及元数据和参与度指标。利用 VoynaSlov 分析了议程设置、框架和引导的媒体效应。数据集和我们的分析都有助于讨论 NLP 研究的未来方向。