The rapid advancement of large language models (LLMs) has intensified concerns about the robustness of their safety alignment. While existing jailbreak studies explore both single-turn and multi-turn strategies, most implicitly assume a static safety boundary and fail to account for how contextual interactions dynamically influence model behavior, leading to limited stability and generalization. Motivated by this gap, we propose MEEA (Mere Exposure Effect Attack), a psychology-inspired, fully automated black-box framework for evaluating multi-turn safety robustness, grounded in the mere exposure effect. MEEA leverages repeated low-toxicity semantic exposure to induce a gradual shift in a model's effective safety threshold, enabling progressive erosion of alignment constraints over sustained interactions. Concretely, MEEA constructs semantically progressive prompt chains and optimizes them using a simulated annealing strategy guided by semantic similarity, toxicity, and jailbreak effectiveness. Extensive experiments on both closed-source and open-source models, including GPT-4, Claude-3.5, and DeepSeek-R1, demonstrate that MEEA consistently achieves higher attack success rates than seven representative baselines, with an average Attack Success Rate (ASR) improvement exceeding 20%. Ablation studies further validate the necessity of both annealing-based optimization and contextual exposure mechanisms. Beyond improved attack effectiveness, our findings indicate that LLM safety behavior is inherently dynamic and history-dependent, challenging the common assumption of static alignment boundaries and highlighting the need for interaction-aware safety evaluation and defense mechanisms. Our code is available at: https://github.com/Carney-lsz/MEEA


翻译:大语言模型的快速发展加剧了对其安全对齐鲁棒性的担忧。现有越狱研究虽然探索了单轮和多轮策略,但大多隐含地假设了静态的安全边界,未能考虑上下文交互如何动态影响模型行为,导致稳定性和泛化性有限。受此差距启发,我们提出MEEA(纯粹接触效应攻击),一种受心理学启发、完全自动化的黑盒框架,用于评估多轮安全鲁棒性,其理论基础是纯粹接触效应。MEEA利用重复的低毒性语义暴露,诱导模型有效安全阈值的逐渐偏移,从而在持续交互中实现对对齐约束的渐进式侵蚀。具体而言,MEEA构建语义渐进的提示链,并采用由语义相似性、毒性和越狱有效性指导的模拟退火策略对其进行优化。在闭源和开源模型(包括GPT-4、Claude-3.5和DeepSeek-R1)上进行的大量实验表明,MEEA持续取得比七种代表性基线更高的攻击成功率,平均攻击成功率提升超过20%。消融研究进一步验证了基于退火的优化和上下文暴露机制的必要性。除了提升攻击效果外,我们的研究结果表明,大语言模型的安全行为本质上是动态且依赖于历史交互的,这挑战了静态对齐边界的常见假设,并强调了交互感知的安全评估与防御机制的必要性。我们的代码发布于:https://github.com/Carney-lsz/MEEA

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员