大语言模型在各种应用中表现突出,被广泛应用,成为打造新质生产力的重要引擎。然而,当恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时,就可能导致越狱攻击,生成违反模型使用准则、道德或法律的内容,引发伦理问题。本文分析总结了越狱攻击的起源及其攻防演变过程,首先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型;从大语言模型的发展历程和对安全性认知的变化两个角度,分析了越狱攻击的发展历史,将越狱攻击存在的根因总结为大语言模型的服务属性与价值观的不匹配;最后,从攻防博弈的角度总结越狱攻防的演化过程,探讨了越狱攻击的新型威胁模式和防御方法发展方向。