探讨了通过大型语言模型(LLMs)对在线内容进行自动审核的潜力,以此来解决事实核查机构无法核实的大量在线内容的问题。虽然大型语言模型(如 ChatGPT)可能会通过促进内容生产而加剧这一问题,但它们也可以用来提高事实核查流程的效率和便利性。我们进行了一次系统评估,通过向 ChatGPT 提交 21,152 份经过事实核查的声明,对 ChatGPT 的事实核查性能进行了零点分类。我们发现,在 69% 的情况下,ChatGPT 能够准确地将语句分为真或假。针对记忆问题,ChatGPT 在未经事实核查或训练数据截止日期后的声明中的表现也类似。这些发现证明了 ChatGPT 在帮助标注错误信息方面的潜力,并加深了我们对 LLM 如何改进内容审核实践的理解,补充了人类事实核查专家在维护信息传播准确性方面的重要工作。

讨论

本研究证明了利用 ChatGPT 和其他 LLMs 提高事实核查过程的效率和便利性的潜力。至少,研究结果强调了进一步深入探究 LLM 在自动和人工媒介环境下的内容审核能力和特性的重要性。鉴于社交媒体和其他数字平台在塑造公共话语方面发挥着越来越重要的作用,我们不仅有必要加深了解 LLM 如何被滥用来损害我们信息生态系统的质量,而且有必要了解我们如何利用 LLM 来促进负责任和合乎道德的内容审核实践。

虽然有 ChatGPT 无法对语句进行分类的情况,但这种情况相对较少,而使用同样可以处理图片的 GPT-4 时,这种情况可能会更少。ChatGPT 得出的结论与人类事实核查人员的结论相反的情况也相对较少,但 ChatGPT 的总体性能虽然好于偶然情况,但仍远未达到 100%。不过,完全一致可能是一个不切实际的门槛,特别是考虑到事实核查人员之间的一致率本身也并非没有缺陷(Lim,2018)。

鉴于 LLM 的性质,ChatGPT 在文本来源方面的表现可能会更好,而我们的结果也确实表明,ChatGPT 对来自博客、电子邮件和社交媒体等来源的声明的准确率更高。无论如何,我们需要对 ChatGPT 的训练数据有更深入的了解,才能对它在不同来源中的表现差异做出有用的评估。此外,ChatGPT 的性能还可能取决于它在多大程度上接受了事实核查数据的训练。尽管如此,针对这一问题,各种稳健性检查显示,ChatGPT 在训练数据截止日期之前和之后的准确性是相似的,而且在未经事实核查的声明方面表现良好。我们还敦促今后对 ChatGPT 在不同主题上的表现进行更深入的研究,使用其他方法,如使用少数几个监督分类器,而不是 LDA 这样的无监督方法,以更高的精确度,特别是更高的召回率来区分索赔,从而覆盖数据集中更多的索赔。

总之,考虑到可信(在线)内容的持续盛行(Acerbi、Altay 和 Mercier,2022 年)与公众日益增长的怀疑态度(Hoes、von Hohenberg、Gessler、Wojcieszak 和 Qian,2022 年)形成鲜明对比,ChatGPT 可以成为未来增加准确而非(仅)虚假信息标签的工具。这对事实核查机构和社交媒体平台来说都是一个很好的补充,前者由于时间和资源有限,越来越多地专注于对虚假信息进行事实核查,而后者则通常专注于标记有害信息(Alizadeh et al.) 在我们的数据中(见 SI 中的图 6),2018 年之后,被事实核查为虚假(与真实相比)的声明比例急剧增加(r = .85 [.60, .94])。2019 年之前,46.34% 的言论被事实核查人员核查为虚假,而 2018 年之后,81.38% 的言论被事实核查人员核查为虚假,增加了 35 个百分点。ChatGPT 专注于网上的真实内容,而非仅仅关注虚假内容,通过准确识别和标注真实主张,有助于将网上言论的天平转向准确性和可靠性,从而扩大其知名度和影响力(van der Meer, Hameleers, & Ohme, 2023)。

我们认为以下问题和步骤是未来研究的可行途径: (i) ChatGPT 在其他事实核查数据集上的性能,包括不同国家和语言的数据集;(ii) ChatGPT 在其他内容审核实践中的性能,如识别仇恨言论(Huang、Kwak 和 An,2023 年)和其他有害内容; (iii) ChatGPT 在多种类型(较长)文本中超越简短声明的性能(Gilardi、Alizadeh 和 Kubli,2023 年);(iv) 评估 GPT-4 在执行这些任务时的性能,(v) 评估和比较 ChatGPT 或其他 LLM 的性能及其对事实核查人员的潜在作用,以及 (vi) 对机器学习模型的潜在作用。

最后但并非最不重要的一点是,必须强调的是,虽然像 ChatGPT 这样的法律硕士可能有助于在事实核查领域取得重大进展,但必须认识到,它还不能取代这项任务中的人的因素(目前还不能)。虽然 LLM 可以提供速度和一致性,但它们缺乏细微的理解和批判性思维能力,而这对于有效的事实核查是必不可少的。人类事实核查专家拥有丰富的经验、背景和判断力,这是任何机器都无法复制的。仅仅依靠技术进行事实核查可能会导致错误信息的传播和对信息传播准确性的不信任。因此,至关重要的是,要将 LLM 视为一种辅助工具,以加强人类专家的工作,而不是取而代之。

成为VIP会员查看完整内容
47

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《边界监视多传感器融合系统中的目标跟踪》
专知会员服务
48+阅读 · 2023年6月11日
《基于风险评估框架进行作战分析》
专知会员服务
62+阅读 · 2023年5月22日
《TextCycleGAN 技术报告》
专知会员服务
33+阅读 · 2023年5月4日
《图像数据隐藏技术综述》
专知会员服务
41+阅读 · 2023年3月26日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
《综述:基于博弈论和机器学习的防御性欺骗方法》
专知会员服务
51+阅读 · 2022年10月2日
【干货书】算法,Algorithms,314页pdf
专知会员服务
83+阅读 · 2022年8月20日
专知会员服务
66+阅读 · 2021年1月6日
【干货书】计算机科学离散数学,627页pdf
专知
63+阅读 · 2020年8月31日
【KDD2020】图神经网络:基础与应用,322页ppt
【NLP】万字长文概述NLP中的深度学习技术
产业智能官
18+阅读 · 2019年7月7日
深度学习目标检测概览
AI研习社
46+阅读 · 2017年10月13日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2023年12月11日
A Survey of Large Language Models
Arxiv
459+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
11+阅读 · 2018年7月31日
VIP会员
相关VIP内容
《边界监视多传感器融合系统中的目标跟踪》
专知会员服务
48+阅读 · 2023年6月11日
《基于风险评估框架进行作战分析》
专知会员服务
62+阅读 · 2023年5月22日
《TextCycleGAN 技术报告》
专知会员服务
33+阅读 · 2023年5月4日
《图像数据隐藏技术综述》
专知会员服务
41+阅读 · 2023年3月26日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
《综述:基于博弈论和机器学习的防御性欺骗方法》
专知会员服务
51+阅读 · 2022年10月2日
【干货书】算法,Algorithms,314页pdf
专知会员服务
83+阅读 · 2022年8月20日
专知会员服务
66+阅读 · 2021年1月6日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
相关论文
Arxiv
0+阅读 · 2023年12月11日
A Survey of Large Language Models
Arxiv
459+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
11+阅读 · 2018年7月31日
微信扫码咨询专知VIP会员