由于 "开箱即用 "的大型语言模型能够生成大量令人反感的内容,因此最近的工作主要集中在调整这些模型,以防止不良内容的生成。虽然在规避这些措施方面取得了一些成功--即所谓的针对 LLM 的 "越狱"--但这些攻击需要大量的人类智慧,而且在实践中非常脆弱。自动生成对抗性提示的尝试也取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可使对齐的语言模型产生令人反感的行为。具体来说,我们的方法找到了一种后缀,当附加到 LLM 产生令人反感内容的各种查询中时,该后缀旨在最大限度地提高模型产生肯定回答(而不是拒绝回答)的概率。不过,我们的方法并不依赖人工工程,而是结合贪婪和基于梯度的搜索技术,自动生成这些对抗性后缀,而且还改进了过去的自动提示生成方法。
令人惊讶的是,我们发现我们的方法生成的对抗性提示具有很强的可移植性,包括可移植到黑盒、公开发布的生产型 LLM。具体来说,我们在多个提示(即询问多种不同类型的不良内容的查询)和多个模型(在我们的案例中为 Vicuna-7B 和 13B)上训练对抗性攻击后缀。这样做时,所产生的攻击后缀会在 ChatGPT、Bard 和 Claude 以及 LLaMA-2-Chat、Pythia、Falcon 等开源 LLM 的公共接口中诱发令人反感的内容。有趣的是,针对基于 GPT 的模型,这种攻击转移的成功率要高得多,这可能是由于 Vicuna 本身是根据 ChatGPT 的输出进行训练的。总之,这项工作大大推进了针对对齐语言模型的对抗性攻击的先进水平,提出了如何防止此类系统产生不良信息的重要问题。代码见 github.com/llm-attacks/llm-attacks。
图 1:对齐的 LLM 并非对抗性对齐。我们的攻击构建了一个单一的对抗提示,它能在不直接访问 ChatGPT、Claude、Bard 和 Llama-2 等最先进商业模型的情况下,持续规避这些模型的对齐。这里展示的示例都是这些系统的实际输出结果。对抗性提示可以高概率地从这些模型中诱导出任意有害行为,显示了滥用的可能性。为了实现这一目标,我们的攻击(贪婪坐标梯度)通过对多个较小的开源 LLM 进行优化,针对多种有害行为找到了这种通用和可转移的提示。第 3 节将进一步讨论这些问题,附录 B 提供了完整的未删节记录。