大语言模型在各种应用中表现突出, 被广泛应用, 成为打造新质生产力的重要引擎. 然而, 当 恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时, 就可能导致越狱攻击, 生成违反模型使 用准则、道德或法律的内容, 引发伦理问题. 本文分析总结了越狱攻击的起源及其攻防演变过程, 首 先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型; 从大语言模型的发展历程和对 安全性认知的变化两个角度, 分析了越狱攻击的发展历史, 将越狱攻击存在的根因总结为大语言模型 的服务属性与价值观的不匹配; 最后, 从攻防博弈的角度总结越狱攻防的演化过程, 探讨了越狱攻击 的新型威胁模式和防御方法发展方向。