As AI agents become integral to enterprise workflows, their reliance on shared tool libraries and pre-trained components creates significant supply chain vulnerabilities. While previous work has demonstrated behavioral backdoor detection within individual LLM architectures, the critical question of cross-LLM generalization remains unexplored, a gap with serious implications for organizations deploying multiple AI systems. We present the first systematic study of cross-LLM behavioral backdoor detection, evaluating generalization across six production LLMs (GPT-5.1, Claude Sonnet 4.5, Grok 4.1, Llama 4 Maverick, GPT-OSS 120B, and DeepSeek Chat V3.1). Through 1,198 execution traces and 36 cross-model experiments, we quantify a critical finding: single-model detectors achieve 92.7% accuracy within their training distribution but only 49.2% across different LLMs, a 43.4 percentage point generalization gap equivalent to random guessing. Our analysis reveals that this gap stems from model-specific behavioral signatures, particularly in temporal features (coefficient of variation > 0.8), while structural features remain stable across architectures. We show that model-aware detection incorporating model identity as an additional feature achieves 90.6% accuracy universally across all evaluated models. We release our multi-LLM trace dataset and detection framework to enable reproducible research.


翻译:随着AI智能体在企业工作流程中日益重要,其对共享工具库与预训练组件的依赖带来了显著的供应链安全风险。尽管已有研究在单一LLM架构内实现了行为后门检测,但跨LLM泛化这一关键问题尚未被探索,而该问题对部署多AI系统的组织具有重大影响。本文首次系统研究了跨LLM行为后门检测,在六个生产级LLM(GPT-5.1、Claude Sonnet 4.5、Grok 4.1、Llama 4 Maverick、GPT-OSS 120B及DeepSeek Chat V3.1)上评估了泛化性能。通过对1,198条执行轨迹和36组跨模型实验的分析,我们量化了一个关键发现:单模型检测器在训练分布内准确率达92.7%,但在不同LLM间仅达49.2%,存在43.4个百分点的泛化差距,其效果接近随机猜测。分析表明,该差距源于模型特定的行为特征,尤其是时序特征(变异系数>0.8),而结构特征在跨架构中保持稳定。我们证明,通过将模型身份作为附加特征纳入的模型感知检测方法,可在所有评估模型中实现90.6%的通用准确率。我们公开了多LLM轨迹数据集与检测框架,以支持可复现研究。

0
下载
关闭预览

相关内容

【NeurIPS2025】迈向开放世界的三维“物体性”学习
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员