Deep Research (DR) agents built on Large Language Models (LLMs) can perform complex, multi-step research by decomposing tasks, retrieving online information, and synthesizing detailed reports. However, the misuse of LLMs with such powerful capabilities can lead to even greater risks. This is especially concerning in high-stakes and knowledge-intensive domains such as biosecurity, where DR can generate a professional report containing detailed forbidden knowledge. Unfortunately, we have found such risks in practice: simply submitting a harmful query, which a standalone LLM directly rejects, can elicit a detailed and dangerous report from DR agents. This highlights the elevated risks and underscores the need for a deeper safety analysis. Yet, jailbreak methods designed for LLMs fall short in exposing such unique risks, as they do not target the research ability of DR agents. To address this gap, we propose two novel jailbreak strategies: Plan Injection, which injects malicious sub-goals into the agent's plan; and Intent Hijack, which reframes harmful queries as academic research questions. We conducted extensive experiments across different LLMs and various safety benchmarks, including general and biosecurity forbidden prompts. These experiments reveal 3 key findings: (1) Alignment of the LLMs often fail in DR agents, where harmful prompts framed in academic terms can hijack agent intent; (2) Multi-step planning and execution weaken the alignment, revealing systemic vulnerabilities that prompt-level safeguards cannot address; (3) DR agents not only bypass refusals but also produce more coherent, professional, and dangerous content, compared with standalone LLMs. These results demonstrate a fundamental misalignment in DR agents and call for better alignment techniques tailored to DR agents. Code and datasets are available at https://chenxshuo.github.io/deeper-harm.


翻译:基于大型语言模型(LLM)构建的深度研究(DR)智能体能够通过分解任务、检索在线信息并综合生成详细报告,执行复杂多步骤的研究工作。然而,滥用具备如此强大能力的LLM可能引发更为严重的风险。这在生物安全等高风险、知识密集型领域尤其令人担忧,因为DR智能体可能生成包含详细禁忌知识的专业报告。遗憾的是,我们在实践中已发现此类风险:仅需提交一个有害查询(独立LLM会直接拒绝),即可从DR智能体处诱出详细而危险的报告。这突显了风险升级的现状,并强调需要进行更深层次的安全分析。然而,针对LLM设计的越狱方法在揭示此类独特风险方面存在不足,因为它们并未针对DR智能体的研究能力。为填补这一空白,我们提出两种新型越狱策略:计划注入(Plan Injection),将恶意子目标注入智能体的规划中;以及意图劫持(Intent Hijack),将有害查询重新构建为学术研究问题。我们在不同LLM及多种安全基准(包括通用与生物安全禁忌提示)上进行了广泛实验。实验揭示了三个关键发现:(1)LLM的对齐机制在DR智能体中经常失效,以学术术语构建的有害提示能够劫持智能体意图;(2)多步骤规划与执行削弱了对齐效果,暴露出提示级安全措施无法应对的系统性漏洞;(3)与独立LLM相比,DR智能体不仅能绕过拒绝响应,还能生成更连贯、专业且危险的内容。这些结果表明DR智能体存在根本性的对齐偏差,亟需开发针对DR智能体定制的改进对齐技术。代码与数据集发布于 https://chenxshuo.github.io/deeper-harm。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
12+阅读 · 2022年11月21日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
29+阅读 · 2018年4月6日
Arxiv
22+阅读 · 2018年2月14日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
相关论文
Arxiv
12+阅读 · 2022年11月21日
Geometric Graph Convolutional Neural Networks
Arxiv
10+阅读 · 2019年9月11日
Arxiv
12+阅读 · 2019年2月26日
Arxiv
29+阅读 · 2018年4月6日
Arxiv
22+阅读 · 2018年2月14日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员