Large Language Models (LLMs) have gained considerable popularity and protected by increasingly sophisticated safety mechanisms. However, jailbreak attacks continue to pose a critical security threat by inducing models to generate policy-violating behaviors. Current paradigms focus on input-level anomalies, overlooking that the model's internal psychometric state can be systematically manipulated. To address this, we introduce Psychological Jailbreak, a new jailbreak attack paradigm that exposes a stateful psychological attack surface in LLMs, where attackers exploit the manipulation of a model's psychological state across interactions. Building on this insight, we propose Human-like Psychological Manipulation (HPM), a black-box jailbreak method that dynamically profiles a target model's latent psychological vulnerabilities and synthesizes tailored multi-turn attack strategies. By leveraging the model's optimization for anthropomorphic consistency, HPM creates a psychological pressure where social compliance overrides safety constraints. To systematically measure psychological safety, we construct an evaluation framework incorporating psychometric datasets and the Policy Corruption Score (PCS). Benchmarking against various models (e.g., GPT-4o, DeepSeek-V3, Gemini-2-Flash), HPM achieves a mean Attack Success Rate (ASR) of 88.1%, outperforming state-of-the-art attack baselines. Our experiments demonstrate robust penetration against advanced defenses, including adversarial prompt optimization (e.g., RPO) and cognitive interventions (e.g., Self-Reminder). Ultimately, PCS analysis confirms HPM induces safety breakdown to satisfy manipulated contexts. Our work advocates for a fundamental paradigm shift from static content filtering to psychological safety, prioritizing the development of psychological defense mechanisms against deep cognitive manipulation.


翻译:大型语言模型(LLMs)已获得广泛应用,并受到日益复杂的安全机制保护。然而,越狱攻击通过诱导模型产生违反策略的行为,持续构成严重的安全威胁。当前的研究范式主要关注输入层面的异常,忽视了模型的内部心理状态可被系统性操控这一事实。为此,我们提出“心理越狱”,一种新的越狱攻击范式,它揭示了LLMs中存在一种有状态的心理攻击面,攻击者可利用跨交互过程对模型心理状态的操控来实现攻击。基于这一洞见,我们提出了“类人心理操控”(HPM),一种黑盒越狱方法,它能动态剖析目标模型的潜在心理弱点,并合成定制的多轮攻击策略。通过利用模型对拟人一致性的优化倾向,HPM营造出一种心理压力,使得社会遵从性压倒了安全约束。为了系统性地衡量心理安全性,我们构建了一个包含心理测量数据集和策略腐化分数(PCS)的评估框架。在多种模型(例如GPT-4o、DeepSeek-V3、Gemini-2-Flash)上的基准测试表明,HPM的平均攻击成功率(ASR)达到88.1%,优于最先进的攻击基线方法。我们的实验证明,该方法能有效穿透包括对抗性提示优化(例如RPO)和认知干预(例如Self-Reminder)在内的先进防御机制。最终,PCS分析证实HPM能够诱发安全机制崩溃,以满足被操控的上下文。我们的工作主张从静态内容过滤到心理安全的根本性范式转变,并强调优先开发针对深度认知操控的心理防御机制。

0
下载
关闭预览

相关内容

大语言模型越狱攻击:模型、根因及其攻防演化
专知会员服务
20+阅读 · 4月28日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员