《生成式人工智能与虚假信息：最新进展、挑战和机遇》

在过去三年里，生成式人工智能技术（如 DALL-E、ChatGPT）从研究论文和公司实验室一跃成为包括学龄儿童在内的数亿人使用的在线服务。根据皮尤研究公司 2023 年 7 月的数据，仅在美国，就有 18% 的成年人使用过 ChatGPT。

随着生成式人工智能的流畅性和可负担性逐月提高，它也被广泛滥用于制造负担得起、极具说服力的大规模虚假信息活动。人工智能生成的虚假信息具有高度破坏性的例子比比皆是，其中包括利润丰厚的 Facebook 广告，试图通过深度伪造摩尔多瓦亲西方总统的视频来影响选民。YouTube 上也有利用语音模仿的政治深度伪造视频广告。除视频外，人工智能生成的图像还被用于传播有关加沙的虚假信息和宣传分裂、反移民的言论。事实核查人员也报告了音频深度伪造，到目前为止，这些伪造主要集中在政客的虚假对话和声明上。俄乌战争虚假信息宣传还利用了人工智能生成武器（例如，乌克兰总统呼吁投降的深度伪造视频）。

目标国家遍布整个欧盟（甚至更远），包括保加利亚等极易受攻击的国家，这些国家的公民媒体素养和批判性思维能力较低，对人工智能生成的复杂图像、视频、音频和文本的存在缺乏认识。

迄今为止，旨在反击帖子和广告中虚假信息的平台行动也未能检测和删除有害的人工智能生成内容。所有主要的社交媒体平台和聊天应用程序都受到了影响。为简洁起见，在此仅列举了 Facebook（广告（吉尔伯特，2024 年）、群组（《日报》，2023 年）、页面（博塞夫，2023 年））、YouTube（RTL Lëtzebuerg，2023 年）、X（法国，2023 年；托特，2023 年）、Instagram（法国，2023 年；托特，2023 年）、TikTok（法新社、美国和法新社德国分社，2023 年；马里诺夫，2023 年）和 Telegram（斯塔塞维奇，2023 年；马里诺夫，2023 年）的一些例子。人工智能生成的内容（例如，声称保加利亚的选票被操纵的虚假音频（Dobreva，2023 年））也被通过电子邮件发送给媒体和记者，目的是欺骗可靠的媒体发布虚假内容。

此外，生成式人工智能不仅被用于以低成本制造极具欺骗性的虚假信息，而且其存在和熟练程度正被一些行为者用作武器，他们传播虚假信息，声称来自政府和主流媒体的真实图像、视频和音频内容实际上是假的。最近的一个例子是特斯拉的一个法庭案件，该公司的律师声称埃隆-马斯克的一段视频是深度伪造的（《卫报》和路透社，2023 年）。另一个例子是在保加利亚，不良分子试图诋毁政府和 “新自由主义 ”主流媒体，通过亲克里姆林宫的 Telegram 频道和 Facebook 页面散布虚假信息，将保加利亚总理在欧洲议会发言的官方照片说成是假的。

这些例子表明，生成式人工智能对公民的辨别能力以及平台和事实核查人员处理网络虚假信息的能力产生了颠覆性的超现实影响。

更具体地说，从核查专业人员的角度来看，缺乏可追溯的来源完全破坏了他们的内容核查工作流程。在生成式人工智能成为廉价而多产的虚假在线内容 “作者 ”之前，记者、事实核查人员、人权维护者和其他专业人员主要依靠的是能够将给定对象（文本、图像、视频、音频）追溯到其原始来源，从而验证所审查的内容是否与现实相符，或者相反，它是否来自脱节或被篡改的副本。

生成式人工智能商品化的另一个特别令人担忧的后果是，它的成本极低，而且通过网站和移动应用程序很容易获取。现在，YouTube、TikTok 和其他网站上有大量关于如何创建人工智能生成图像或视频（包括使用人工智能头像）的在线教程，这些教程有的是免费的，有的每月只需几十或几百美元。相比之下，2016 年俄罗斯互联网研究机构（IRA）的预算为每月 125 万美元（情报部门：参议院，约 2019 - 2021 年）。

本白皮书旨在加深对最先进的人工智能生成虚假信息能力的理解，以及对人工智能在开发新型虚假信息检测技术中的应用和相关伦理与法律挑战的理解。最后，将重新审视生成型人工智能在虚假信息制作、传播、检测和揭穿方面带来的挑战和机遇。

警惕大模型生成虚假文本信息

大型语言模型（LLM）是一种人工神经网络，能够生成流畅、极具说服力的文本和人类对话。最广为人知、使用最广泛的是 OpenAI 的 ChatGPT。它的使用成本非常低廉，已被用于虚假信息宣传和网络侵权。例如，最近的研究发现，至少有 64 个 X/Twitter 机器人账户使用 ChatGPT 生成的内容（Thomas，2023 年）。

目前，人们对滥用 LLM 生成虚假信息的了解相对较少。科学研究主要集中在研究 LLM 生成和检测 LLM 生成文本的能力，例如（Zellers 等人，2020 年；Buchanan 等人，2021 年）。最近的一项关于新一代 LLM 的虚假信息能力的综合研究（Vykopal 等人，2023 年）使用人工选择的 20 个有代表性的虚假信息叙述，对 10 个 LLM 的能力进行了评估。研究的重点是 LLM 生成新闻文章的能力如何；它们同意或不同意虚假信息叙述的倾向有多强；以及它们生成安全警告的频率有多高。

针对要求生成特定虚假信息叙述的提示，发现不同的 LLM 会输出安全和危险的生成文本。安全文本是不同意虚假信息叙述（即主动反驳叙述）或使用安全过滤器的文本。另一方面，危险文本是一篇格式良好的新闻文章，它与叙述一致，并提供了新的论据。研究人员（Vykopal 等人，2023 年）发现，只有Falcon LLM 和部分 ChatGPT 倾向于不同意虚假信息的叙述，而所有其他 LLM 都倾向于同意并生成危险文本。然而，vera.ai3 项目的后续研究发现，ChatGPT 的提示不仅能完全绕过 ChatGPT 的安全过滤器，还能促使其生成虚假信息叙述，而人类读者无法将其与人类撰写的文本区分开来，为检测 LLM 生成的文本而训练的人工智能模型也无法做到这一点。

这表明，最先进的 LLM 不仅能够生成有说服力的虚假信息叙述和对其有利的论据，而且还能遵守虚假信息生成提示。目前还没有有效的安全机制来保护用户和社会免受廉价、协调的虚假信息机器人（使用人工智能生成的个人资料图像）或复杂的国家支持的人工智能虚假信息活动的影响。