由于 "开箱即用 "的大型语言模型能够生成大量令人反感的内容,因此最近的工作主要集中在调整这些模型,以防止不良内容的生成。虽然在规避这些措施方面取得了一些成功--即所谓的针对 LLM 的 "越狱"--但这些攻击需要大量的人类智慧,而且在实践中非常脆弱。自动生成对抗性提示的尝试也取得了有限的成功。在本文中,我们提出了一种简单有效的攻击方法,可使对齐的语言模型产生令人反感的行为。具体来说,我们的方法找到了一种后缀,当附加到 LLM 产生令人反感内容的各种查询中时,该后缀旨在最大限度地提高模型产生肯定回答(而不是拒绝回答)的概率。不过,我们的方法并不依赖人工工程,而是结合贪婪和基于梯度的搜索技术,自动生成这些对抗性后缀,而且还改进了过去的自动提示生成方法。

令人惊讶的是,我们发现我们的方法生成的对抗性提示具有很强的可移植性,包括可移植到黑盒、公开发布的生产型 LLM。具体来说,我们在多个提示(即询问多种不同类型的不良内容的查询)和多个模型(在我们的案例中为 Vicuna-7B 和 13B)上训练对抗性攻击后缀。这样做时,所产生的攻击后缀会在 ChatGPT、Bard 和 Claude 以及 LLaMA-2-Chat、Pythia、Falcon 等开源 LLM 的公共接口中诱发令人反感的内容。有趣的是,针对基于 GPT 的模型,这种攻击转移的成功率要高得多,这可能是由于 Vicuna 本身是根据 ChatGPT 的输出进行训练的。总之,这项工作大大推进了针对对齐语言模型的对抗性攻击的先进水平,提出了如何防止此类系统产生不良信息的重要问题。代码见 github.com/llm-attacks/llm-attacks。

图 1:对齐的 LLM 并非对抗性对齐。我们的攻击构建了一个单一的对抗提示,它能在不直接访问 ChatGPT、Claude、Bard 和 Llama-2 等最先进商业模型的情况下,持续规避这些模型的对齐。这里展示的示例都是这些系统的实际输出结果。对抗性提示可以高概率地从这些模型中诱导出任意有害行为,显示了滥用的可能性。为了实现这一目标,我们的攻击(贪婪坐标梯度)通过对多个较小的开源 LLM 进行优化,针对多种有害行为找到了这种通用和可转移的提示。第 3 节将进一步讨论这些问题,附录 B 提供了完整的未删节记录。

成为VIP会员查看完整内容
23

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
35+阅读 · 2023年10月29日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
15+阅读 · 2023年3月17日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
《深度伪造检测模型的准确性和鲁棒性》2023最新论文
专知会员服务
35+阅读 · 2023年10月29日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员