大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大型语言模型（LLMs）由于其能在许多知识领域中与最终用户进行具有详细且清晰的回答的人类级别对话的能力，引发了AI的新热潮。响应其在许多工业应用中的快速采用，本综述关注其安全性和可信度。首先，我们回顾了LLMs的已知漏洞，将它们分类为固有问题，预定攻击和无意的错误。然后，我们考虑是否以及如何可以将已经为传统软件和深度学习模型（如卷积神经网络）广泛开发的验证和验证（V＆V）技术整合并进一步扩展到LLMs的生命周期中，以对LLMs及其应用的安全性和可信度提供严谨的分析。特别是，我们考虑四种互补技术：伪造和评估，验证，运行时监视和道德使用。考虑到LLMs的快速发展，本综述并无意完整（尽管它包含300多个参考），尤其是在涉及到LLMs在各个领域的应用时，而是收集了有组织的文献回顾和讨论，以支持从V＆V的视角快速理解安全性和可信度问题。

https://arxiv.org/abs/2305.11391

1. 引言

大型语言模型（LLM）是一种具备大量可学习参数的深度学习模型（通常达到100亿以上，如图1所示）。LLMs是基于Transformer架构[116]的注意力驱动的序列模型，已经一直显示出学习语言通用表示的能力。这种语言的通用表示可以被用于各种自然语言处理（NLP）任务。最近，这些模型在参数数量和预训练语料库方面的扩大，已经证实了Transformer作为编码语言表示的普遍性。在特定规模下，这些模型开始表现出在上下文中的学习能力[184,278]，以及从少数示例（零/一/少数 - 无需微调）和自然语言提示（描述模型需要实施的行为意图的复杂指令）中学习的属性。最近关于通过人类反馈进行强化学习（RLHF）[190]的研究进一步发展了这些模型对越来越复杂提示的对齐和响应的能力，导致了它们在如ChatGPT等系统中的普及，以及在大量应用中的使用。LLMs表现出复杂的语言和推理行为的能力，已经推动了它们在超出预期操作范围的应用。尽管LLMs在语言流畅性上一直表现出色，但它们也容易产生错觉[228]，陈述事实上不正确的陈述[227]，以及缺乏必要的安全性、透明度和控制机制[239]等问题。本文的目标是提供关于LLMs已知漏洞的回顾，并更重要的是，探讨如何调整V&V技术以提高LLMs的安全性和可信度。虽然已有一些关于LLMs的调查[296,291]，以及关于ChatGPT失败的分类性档案[47]，但据我们所知，这是第一个从V&V的角度对安全性和可信度问题进行全面讨论的工作。

V&V技术在支持安全关键系统中软硬件的可靠和可信赖的开发方面取得了成功，并已被适应用于机器学习模型，主要关注图像分类的卷积神经网络（见诸如[125, 169]的调查和[124]等教科书），但也扩展到考虑如目标检测、深度强化学习和循环神经网络等。本文讨论如何进一步扩展V&V以应对LLMs的安全性和可信度挑战。V&V是一种独立的程序，它们一起用于检查系统（或产品，服务）是否满足要求和规范，并且是否达到其预期的目的[7]。其中，验证技术根据一组设计规格检查系统，而验证技术确保系统满足用户的操作需求。从软件、卷积神经网络到LLMs，系统的规模显著增长，这使得常规的V&V技术由于其可扩展性问题而能力不足。将可学习参数作为其算法输入的白盒V&V技术在实践中不会很好地工作。相反，研究应专注于黑盒技术，对于卷积神经网络，一些研究已经开始。此外，V&V技术需要考虑LLMs的非确定性特性（即，对于两次具有相同输入的测试，输出不同），这与常见的神经网络（如卷积神经网络和目标检测器）有显著的不同，目前大多数V&V技术都在这些网络上工作。

本文的结构如下。在第二部分，我们回顾了LLMs及其类别，它的生命周期，以及为提高安全性和可信度而引入的几种技术。然后，在第三部分，我们介绍了现有漏洞的回顾。这之后，我们在第四部分提供了一个通用的验证框架。该框架包括V&V技术，如伪造和评估（第五部分），验证（第六部分），运行时监控（第七部分）和道德使用（第八部分）。我们在第九部分对本文进行总结。

2. 大型语言模型

这一部分总结了基于LLMs的机器学习任务的类别，然后讨论了LLMs的生命周期。我们还将讨论一些与安全性分析相关的基础技术。

图2展示了LLMs的生命周期阶段。离线模型构造由三个步骤组成[291]：预训练、适应调整和利用改进，每个步骤都包含几个交织的子步骤。一般来说，预训练步骤与常规的机器学习训练类似，包括数据收集、架构选择和训练。在适应调整上，它可能进行指令调整[178]以从任务指令中学习，并进行对齐调整[190, 67]以确保LLMs与人类价值观相符，例如公平、诚实和无害。除此之外，为了改善与最终用户的交互，可能会通过例如上下文学习[49]，思维链学习[257]来进行利用改进。一旦一个LLM被训练，就需要进行评估以确保其性能符合预期。通常，我们从三个角度考虑评估：基本性能指标的评估，安全性分析以评估在应用中应用LLM的后果，以及通过公开可用的基准数据集进行的评估。评估将决定LLM是否可接受（对于预设定的标准），如果是的话，过程将向前移动到部署阶段。否则，将至少确定一个失败，并且过程将回退到三个训练步骤中的任何一个。在部署阶段，我们将决定如何使用LLM。例如，它可以在网页平台上供最终用户直接交互，比如ChatGPT。或者，它可能被嵌入到搜索引擎中，比如新的Bing。然而，根据常规做法，会在LLMs和最终用户之间的对话上设置保护，以确保AI规则最大程度地实施。

3 漏洞

本部分介绍已知类型漏洞的回顾。这些漏洞可以分为固有问题、有意攻击和无意错误三类。固有问题是指LLMs本身无法立即解决的漏洞。然而，通过更多的数据和新的训练方法等逐步改进是可能的。固有问题包括性能弱点，即LLMs尚未达到人类水平的智能方面，以及可持续性问题，因为LLMs的规模显著大于常规机器学习模型。它们的训练和日常执行可能会产生非可忽略的可持续性影响。此外，可信性和责任问题是LLMs固有的。有意攻击是由恶意攻击者发起的，他们试图通过攻击LLMs生命周期中的某些阶段来实现他们的目标。已知的有意攻击包括鲁棒性漏洞、后门攻击、毒化、虚假信息、隐私泄露和未经授权的信息披露。最后，随着LLMs集成到更广泛的应用中，将出现越来越多的无意错误，这些错误是开发人员在无意识中产生的，但却会产生严重后果，例如偏见和歧视（通常与训练数据的质量有关），以及最近报道的用户信息的意外泄露。图2展示了漏洞在LLMs的生命周期中可能被利用的方式。虽然固有问题和无意错误可能出现在生命周期的任何阶段，但有意攻击通常出现在生命周期的特定阶段。例如，后门攻击通常发生在预训练和适应调整阶段，其中嵌入了后门触发器；毒化通常发生在训练或对齐调整阶段，此时LLMs从环境中获取信息/数据。此外，许多攻击发生在最终用户与LLMs之间的交互中，使用特定的、经过精心设计的提示来从LLMs中检索信息。我们注意到，尽管存在重叠，LLMs和常规深度学习模型（如卷积神经网络或目标检测器）具有略微不同的漏洞，并且尽管已经开始为常规深度学习模型开发规范语言[40, 127]，但这些努力可能需要扩展到LLMs上。

4 通用验证框架

图3展示了一个通用的验证框架示意图，该框架可以与LLMs一起工作，并将几个V&V技术类别定位到生命周期中。在评估阶段，除了目前进行的活动（如图2所述），我们需要从伪造和评估技术开始，并与解释技术同时进行。伪造和评估技术提供了多样的方法来找到故障案例，并具有统计理解潜在故障的能力，但并非穷尽。解释技术旨在提供人类可理解的LLMs输出解释。虽然这两个类别是并行的，但它们可以相互交互，例如，一个故障案例可能需要使用解释技术来理解根本原因，而解释需要区分不同的故障和非故障案例。验证技术通常成本较高，可能仅在LLMs通过前两个类别时才需要。除了离线验证，还需要在保护层之上部署运行时监视器，以在操作时间发现故障案例。这主要是由于两个原因：（1）当处理大量属性和LLMs的高维度时，离线方法可能不完整；（2）LLMs可以是自适应和演化的。最后，在整个生命周期中，需要遵守伦理原则和AI规定，以确保对LLMs的道德使用。

5 伪造和评估

本部分总结了识别和评估基于LLMs的机器学习应用程序漏洞的已知方法。我们还讨论了如何调整V&V，并应该如何调整。

6 验证

本部分讨论是否以及如何将更严格的验证扩展到基于LLMs的机器学习任务中。到目前为止，LLMs的验证或认证仍然是一个新兴的研究领域。本节首先对各种NLP模型的验证技术进行了全面系统的回顾。然后，我们讨论了一些开创性的黑盒验证方法，这些方法可以在大规模语言模型上发挥作用。接下来，我们讨论如何将这些工作扩展到LLMs，并回顾减小LLMs规模以增加验证技术有效性的努力。

7 运行时监视器

第2.3.2节提到的保护层为LLMs与最终用户的交互提供了安全保障，同时保持其社会责任。本节讨论了一种V&V方法，即运行时监视器，它与保护层有些相似，可以对LLMs的行为进行保护，以防止像第3节中讨论的那样的漏洞。使用运行时监视器而不是验证的关键动机有两个方面。首先，验证方法需要大量的计算，因此在处理像LLMs这样的大型模型时可能变得不切实际。其次，深度学习模型可能被应用于与收集训练数据不同的场景。这表明需要一个运行时监视器来实时确定规范的可满足性。

8 规定和道德使用

V&V提供了一系列技术手段，以支持LLMs与人类利益的一致性。然而，有人认为构建无法被滥用的LLMs可能是不可能的。这表明技术手段是必要的，但可能是不充分的。因此，需要道德手段来补充技术手段，以确保LLMs的使用与人类利益完全一致。以下，我们将讨论几个近期取得的进展迹象。

9. 结论

本文概述了LLM（大型语言模型）已知的漏洞，并讨论了如何调整V&V（验证和验证）技术以适应它们的工作。鉴于LLM正在迅速被直接或间接与终端用户进行交互的应用程序所采用，必须确保部署的LLM经历足够的审判过程，以避免任何不可取的安全和可信后果。考虑到LLM的规模和复杂性，白盒V&V技术可能变得不切实际，社区可能需要开发黑盒、非确定性敏感的V&V技术。此外，多学科的开发将确保充分考虑所有可信问题。

成为VIP会员查看完整内容