生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式人工智能（GenAI）技术，如大型语言模型（LLMs）和扩散模型，已经改变了计算领域的格局。它们启用了一些令人兴奋的应用，例如生成逼真的图像、自动代码补全和文档摘要。然而，敌手也可以利用GenAI（这是典型的“双重用途”情况）。例如，敌手可以使用GenAI生成钓鱼电子邮件或者传播虚假信息的逼真内容。注意，这些攻击以前就有可能，但由于GenAI的影响，这些攻击的速度/规模可能会大大提高。我们正在组织一个关于GenAI风险的研讨会，重点关注如下几个问题：

[1] 攻击者如何利用GenAI技术？ [2] 针对GenAI技术，安全措施应该如何改变？ [3] 在设计对策时，我们应该关注哪些当前和新兴的技术？

每项重大的技术发明都会重新引发双重用途困境——新技术有可能用于善也有可能用于恶。生成式人工智能（GenAI）技术，如大型语言模型（LLMs）和扩散模型，已经展示了显著的能力（例如，在上下文中学习、代码自动完成以及文本到图像的生成和编辑）。然而，攻击者同样可以利用GenAI来生成新的攻击手段，并增加现有攻击的速度和效果。本文报告了在谷歌（由斯坦福大学和威斯康星大学麦迪逊分校共同组织）举行的一个关于GenAI带来的双重用途困境的研讨会的发现。这篇论文并非旨在全面探讨，而是试图综合研讨会中一些有趣的发现。我们讨论了社群在这个话题上的短期和长期目标。我们希望这篇论文既能为这一重要话题提供一个讨论的起点，也能提出一些研究社群可以努力解决的有趣问题。概述

强大的技术的出现，比如生成式人工智能，带出了双重用途的困境，根据维基百科的定义是： . . . 双重用途也可以指任何能够在任何给定时间满足多于一个目标的商品或技术。因此，本来只能造福民用商业利益的昂贵技术，如果没有另外的用途，也可以用于军事目的，比如全球定位系统（GPS）。这个困境最初是由于合成和大规模生产氨的过程的发现而引起注意的，这一过程用现代化肥革命了农业，但也导致了第一次世界大战中化学武器的创造。这个困境导致了一些有趣的政策决策，包括国际条约如化学武器公约和不扩散核武器条约[92]。在计算机安全和密码学中，双重用途困境在多个情境中出现。例如，加密用于保护“静态数据”，但也可以被勒索软件用来加密文件。同样地，匿名技术可以帮助保护普通用户在线，但也可以帮助攻击者逃避检测。生成式人工智能（GenAI）技术，如大型语言模型（LLMs）和稳定扩散，已经展示了显著的能力。其中一些令人惊奇的能力包括在上下文中学习、代码补全和生成逼真的多媒体内容。然而，GenAI重新引发了“双重用途困境”，因为它可以用于生产性和恶意目的。GenAI已经为攻击者和防御者提供了强大的新能力，并且正在迅速改进。这改变了针对个人、组织和各种计算机系统的恶意攻击的格局。过去那些因为使用初级英语而能被检测出的笨拙的“尼日利亚骗局”已经成为过去。我们也看到了改进防御的机会，包括监控电子邮件和社交媒体上的操纵性内容，以及极大地改善网络入侵检测的潜力，例如。无论GenAI的快速发展和广泛应用最终是有利于攻击者还是防御者，未来几年肯定会存在许多不可预测和不确定性，因为这些工具和我们使用它们的能力在不断演变。GenAI已经改变了威胁格局，因此我们需要更好地了解它。第二部分描述与攻击和防御相关的GenAI能力。第三部分聚焦于攻击者如何利用这些GenAI能力。第四部分探讨防御者如何利用GenAI技术来减轻这些攻击的风险。这份攻击和防御的列表并非旨在全面，而是反映了研讨会期间反复出现的几个主题。社群的短期（即，在接下来的一两年内）目标在第五部分中进行了讨论。与具有挑战性问题相对应的长期目标在第六部分中进行了讨论。我们以一些结论性的言论结束本文。我们承认这篇论文并不是这个话题的最终观点，并重申它并非旨在全面。本文的重点是总结研讨会的发现，并描述研究社群面临的一些有趣的问题和挑战。 生成式人工智能能力

由OpenAI [70, 68, 69]、Google [32]、Meta [60]、Salesforce [65]、开源团队 [62]以及其他团队 [61]开发的模型和工具代表的生成式人工智能（GenAI）为专家和普通大众带来了广泛的新能力。合成生成图像、文本、视频和音频的能力包括： * 生成与最佳手工编写的消息散文相媲美的有针对性文本，具有模仿、同情以及引用任何先前沟通或情境的具体内容的能力。 * 生成逼真的图像和视频，这些图像和视频可以基于非常具体的用户输入进行定制。合成逼真组件的组合和引人注目的深度伪造容易制作并且非常引人注目。 * 由于训练集中包含大量和复杂的源材料，能够借鉴详细的技术知识和专业知识。特别是，模型可以生成和分析复杂的源代码或机器代码，重现专门的推理，并回答关于生物学、计算机架构、生理学、物理学、法律、防御策略和其他主题的复杂问题。目前的模型并不是无懈可击的，但能够有效地执行某些任务具有改变游戏规则的能力。 * 总结或改述给定的源材料或沟通，保持风格、语气、意义、情感和意图。 * 在不降低质量的情况下，持久地进行耗时和令人疲惫的任务。虽然人类容易疲劳，例如在检查具有挑战性的社交媒体沟通时可能会遭受心理创伤，但AI模型可以毫不动摇地继续。

攻击

本节讨论了由生成式人工智能（GenAI）启用或加强的攻击。然而，本节并不是对这一主题的全面讨论，也不是最重要攻击的优先列表。这些是在研讨会期间由演讲者和小组成员提到的攻击。 GenAI系统非常擅长生成逼真的输出，在多种模态（文本、图像、视频、音频等）下，很多时候与现实或历史事实、物理定律、数学定律或社会规范和法规几乎没有联系。例如，图1显示了两个（据称是）由GenAI创建的输出以及相关分析，指出了这些输出为何是假的和误导性的。大型语言模型（LLMs）有一些固有的局限性，比如幻觉。幻觉可能会侵蚀对LLMs的信任，特别是如果攻击者频繁触发它们。换句话说，LLMs的固有局限性为攻击者提供了一个途径。基于或由LLMs加强的攻击包括： 网络钓鱼。由于生成式人工智能（GenAI）的出现，过去用于检测钓鱼电子邮件的糟糕语法、拼写错误和不寻常的问候方式已经一去不复返了。现在，骗子可以熟练地制作连贯、富有对话性和令人难以置信的令人信服的钓鱼电子邮件，使它们难以与合法通信区分开来。这一技术进步对在线安全构成严重威胁。更为复杂的是，GenAI能够利用社会工程学策略来生成专门针对个别目标量身定制的钓鱼电子邮件。例如，这些模型可以从目标的社交媒体信息流中获取信息，并使用它来创建高度个性化的消息，从而增加成功欺骗接收者的可能性。

幻觉现象

GenAI模型容易出现“幻觉”，即生成的输出在表面上看似连贯，但可能在事实上是错误的或完全捏造的。这种对事实真实性的缺乏是一个重大问题，特别是当没有足够领域知识的用户过度依赖这些越来越令人信服的语言模型时。这种过度依赖的后果可能是有害的，因为普通用户可能不了解这一局限性。一个突出这一问题的现实世界例子是一名纽约律师用ChatGPT为法律案件准备文件，不幸的是，由ChatGPT生成的文本包括了六个完全捏造的案例。这名被告律师不知道ChatGPT不是一个“搜索工具，而是一个生成性的语言处理工具”。

深度伪造的传播

GenAI模型擅长快速、大规模生成高保真多模态输出，几乎不需要人工干预。不幸的是，这一能力可能被恶意用户利用，广泛传播与他们特定叙述相符的错误信息和假信息。在没有数据出处的情况下，毫无戒心的读者容易成为假消息的受害者。这样的风险涵盖从黄色新闻到信息生态系统的危险政治化，媒体被有目的的错误信息污染。

网络攻击的增多

GenAI模型具有极大地放大网络攻击规模、效力和隐蔽性的潜力。例如，当前的LLMs表现出生成高质量代码的显著效能，对手可以利用这一点自动设计复杂的恶意软件；这样的恶意软件甚至可能包括自动代码生成和执行功能。此外，LLMs可以用于创建智能代理系统，自动设计和执行攻击，多个LLMs可以处理不同的角色，例如规划、侦查、搜索/扫描、代码执行、远程控制和数据窃取。一个例子是ChemCrow化学代理，它被开发用于执行有机合成、药物发现和材料设计等任务。ChemCrow展示了自主规划合成多种化合物（包括一种驱虫剂和三种有机催化剂）的能力。然而，这种进步是有代价的，因为它创造了更大的攻击面。

降低对对手的门槛

进行网络攻击曾经需要在多个语言处理任务上进行大量的人工工程，使其成为一个耗时、费力和成本高昂的努力。然而，随着GenAI模型的出现，语言处理得到了彻底改革，实现了前所未有的速度、最少的人工干预和微不足道的金钱成本。首先，攻击规模大幅增加。最近，StackOverflow平台在一次拒绝服务（DoS）攻击中被LLMs生成的回复淹没，这让人类版主不堪重负，并促使对LLMs进行了暂时的封禁。此外，GenAI模型的广泛可用性为更多潜在对手敞开了大门。

缺乏社会意识和人文敏感性

GenAI模型在生成语法和语义正确的文本方面表现出色，这些文本在统计上与给定的提示一致。然而，它们缺乏对社会背景、社会因素（例如，文化、价值观、规范）以及我们自然期望的与人交往时的敏感性的更广泛的理解。因此，当GenAI模型继续发展并获得人们的信任时，这一局限性可能会对毫无戒心的用户造成严重后果。

数据反馈循环

从公开可用的互联网数据派生的数据集已经成为大规模机器学习成功不可或缺的一部分。然而，随着GenAI模型越来越受欢迎，机器生成的输出将不可避免地出现在互联网上。这种数据反馈为未来依赖于从互联网上抓取数据的训练迭代带来了潜在问题。

不可预测性

现今的LLMs完全是通用目的的，能够在零样本设置中（即，没有任何训练数据）执行多种语言处理任务。随着我们不断探索这些模型的能力，我们不断发现新的“突现能力”，这些能力并没有被明确地设计进去。

防御措施

随着GenAI能力的不断发展，已经提出了几种类型的防御措施。这些防御措施涵盖了从改进GenAI系统的核心功能（例如，通过更好的训练进行对齐）到增强这些GenAI系统集成到的生态系统（例如，LLM输出检测，LLM输出水印）以及更好地使用GenAI（例如，人机合作）等多个方面。本节讨论与GenAI有关的防御措施。再次强调，鉴于防御措施的广阔领域，本节并非旨在全面讨论此主题，也不是最重要防御措施的优先列表。这些是在研讨会上由演讲者和小组成员提到的防御措施。

LLM内容检测：有一系列工作专注于检测由LLM生成的内容（即，给定一个文本x，检测器D(x)输出1（如果由LLM生成）或0（如果是自然文本）。值得注意的是，这里的文本没有什么特殊之处，因为检测器也可以为其他形式设计，例如图像、代码或语音。本质上，这些检测器利用由LLM生成的文本分布与自然文本稍有不同的事实。假设我们有这样一个检测器D，那么你基本上可以用它来检测由LLM生成的内容，并根据此做出决策（例如，抑制一个包含由LLM生成的内容的推文）。然而，这种检测器存在被强大攻击击败的风险[78]。这些攻击的关键思想是，这些检测器对于改述（paraphrasing）并不不变——即，一个由LLM生成的文本可以通过改述的方式使得像DetectGPT[63]这样的检测器无法检测出它是由LLM生成的。

水印技术：在水印过程中，一个“统计信号”被嵌入到GenAI生成过程中，以便稍后可以检测到这个信号。例如，在文本生成的情况下，下一个标记预测的概率稍微被调整，以便稍后可以检测到。水印技术的目标是，文本或图像可以被归因于由某个特定系统（例如GPT或DALLE）生成。然而，通过简单的转换（例如文本的改述）很容易就能移除水印[78]。

代码分析：代码分析是一个难题（即，由于Rice定理，大多数静态分析问题是不可判定的）。对于与信息安全相关的问题（例如恶意软件检测），问题更加复杂，因为对手会尝试混淆代码以逃避检测。

渗透测试：渗透测试（简称pen-testing）是评估系统脆弱性的主要技术之一。然而，渗透测试可能是一个繁琐且主要是手动的任务。不充分的渗透测试可能导致部署脆弱的系统，从而在后续过程中引发重大问题。

多模态分析：在LLM领域的最新进展（例如由DeepMind发布的[71]）引入了对多个模态的支持，包括文本、代码、图像和语音。通过一起利用多个模态，LLM可以提供对复杂信息更全面的理解。

个性化技能培训：通过利用GenAI在多个领域生成高保真媒体的能力，可以创建定制的、满足个体学习者独特需求的沉浸式学习体验。

人机合作：LLM的最新进展展示了它们在任务如可靠的文本分类、文档摘要、问题回答和在多个领域生成可解释性解释等方面的出色能力。

结论

每一项重大的技术进步，比如GenAI（通用人工智能），都会引发双重用途的困境。我们的论文探讨了这些强大技术的攻击和防御能力。本文并不是该话题的“最终定论”。我们的论文受到了在Google举办的研讨会的影响，但这也意味着观点更偏向于研讨会的发言人和参与者。短期目标（第5节）描述了社群应立即开始调查的一些问题。长期目标（第6节）描述了需要大量研究努力的挑战性问题。这个研讨会只是一个开始，我们认为需要多次此类会议以探索完整的领域。然而，我们相信，对GenAI风险及其缓解措施的调查至关重要和及时，尤其是因为攻击者已经开始使用这些技术，防御者不能被“措手不及”。

成为VIP会员查看完整内容

相关内容

生成式人工智能

关注 0

生成式人工智能是利用复杂的算法、模型和规则，从大规模数据集中学习，以创造新的原创内容的人工智能技术。这项技术能够创造文本、图片、声音、视频和代码等多种类型的内容，全面超越了传统软件的数据处理和分析能力。2022年末，OpenAI推出的ChatGPT标志着这一技术在文本生成领域取得了显著进展，2023年被称为生成式人工智能的突破之年。这项技术从单一的语言生成逐步向多模态、具身化快速发展。在图像生成方面，生成系统在解释提示和生成逼真输出方面取得了显著的进步。同时，视频和音频的生成技术也在迅速发展，这为虚拟现实和元宇宙的实现提供了新的途径。生成式人工智能技术在各行业、各领域都具有广泛的应用前景。

大模型的“幻觉”如何克服？腾讯AILab等《大型语言模型中的幻觉》，全面阐述检测、解释和减轻幻觉

专知会员服务

72+阅读 · 2023年9月7日