虚假信息在在线平台上的传播对社会构成了严重挑战,亟需采取有效措施进行信息验证。尽管人工事实核查依然非常重要,但虚假信息的不断增加需要自动化的方法来应对。大型语言模型(LLMs)为帮助事实核查员提供了有前景的机会,利用LLMs广泛的知识和强大的推理能力。在这篇综述论文中,我们探讨了生成型LLMs在事实核查领域的应用,展示了已采用的各种方法和用于提示或微调LLMs的技术。通过概述现有方法,这篇综述旨在提高对LLMs在事实核查中应用的理解,并促进LLMs在这一过程中进一步的发展。
引言 当代数字时代带来了各种挑战,其中包括虚假信息的传播。社交媒体的普及使这个问题更加严峻,成为一个严重的社会关注点。有效应对虚假信息的策略之一是事实核查(Vlachos 和 Riedel,2014),这主要由事实核查员手动完成。然而,事实核查员的数量有限,而虚假信息的传播却在增加(Aïmeur 等,2023)。因此,有必要通过使用数字工具和大型语言模型(LLMs)来开发自动化的事实核查流程,以协助事实核查员(Nakov 等,2021a)。
LLMs利用大规模数据集,结合数十亿参数来模拟语言的细微差别和自然语言的模式。此外,生成型LLMs代表了一种专门用于文本生成的LLMs子集。它们在手动事实核查中的应用显示出提高效率和准确性的良好前景。本研究首次综合总结了将生成型LLMs整合到事实核查过程中的各种方法和技术。
现有的综述已探讨了事实核查员的需求和可自动化的任务(Nakov 等,2021a),任务定义、传统方法或类似BERT的架构(Thorne 和 Vlachos,2018;Zeng 等,2021)。此外,还有几位作者审查了现有的事实核查数据集(Guo 等,2022)。另一项综述旨在利用LLMs对抗虚假信息,并探索LLMs带来的机会和挑战(Chen 和 Shu,2023b)。然而,这项研究并未详细探讨所使用的方法,这为更深入研究生成型LLMs在事实核查中的作用提供了机会。
我们的主要贡献是提供生成型LLMs在自动化事实核查中应用的概述。我们概述了70篇相关方法和新颖提示技术的论文,供研究人员深入研究LLMs辅助的信息验证。我们确定了四个主要任务和各种提出的解决策略。此外,我们讨论了未来的挑战和利用LLMs进行信息验证的可能方向。