Low-Rank Adaptation (LoRA) has emerged as an efficient method for fine-tuning large language models (LLMs) and is widely adopted within the open-source community. However, the decentralized dissemination of LoRA adapters through platforms such as Hugging Face introduces novel security vulnerabilities: malicious adapters can be easily distributed and evade conventional oversight mechanisms. Despite these risks, backdoor attacks targeting LoRA-based fine-tuning remain relatively underexplored. Existing backdoor attack strategies are ill-suited to this setting, as they often rely on inaccessible training data, fail to account for the structural properties unique to LoRA, or suffer from high false trigger rates (FTR), thereby compromising their stealth. To address these challenges, we propose Causal-Guided Detoxify Backdoor Attack (CBA), a novel backdoor attack framework specifically designed for open-weight LoRA models. CBA operates without access to original training data and achieves high stealth through two key innovations: (1) a coverage-guided data generation pipeline that synthesizes task-aligned inputs via behavioral exploration, and (2) a causal-guided detoxification strategy that merges poisoned and clean adapters by preserving task-critical neurons. Unlike prior approaches, CBA enables post-training control over attack intensity through causal influence-based weight allocation, eliminating the need for repeated retraining. Evaluated across six LoRA models, CBA achieves high attack success rates while reducing FTR by 50-70\% compared to baseline methods. Furthermore, it demonstrates enhanced resistance to state-of-the-art backdoor defenses, highlighting its stealth and robustness.


翻译:低秩适应(LoRA)已成为微调大语言模型(LLM)的高效方法,并在开源社区得到广泛采用。然而,通过Hugging Face等平台去中心化传播的LoRA适配器引入了新的安全漏洞:恶意适配器可被轻易分发并规避常规监督机制。尽管存在这些风险,针对基于LoRA微调的后门攻击研究仍相对不足。现有后门攻击策略难以适用于此场景,因其通常依赖不可获取的训练数据、未能考虑LoRA特有的结构特性,或存在高误触发率(FTR),从而损害攻击的隐蔽性。为应对这些挑战,我们提出因果引导的去毒化后门攻击(CBA),这是一种专为开放权重LoRA模型设计的新型后门攻击框架。CBA无需原始训练数据即可实施,并通过两项关键创新实现高隐蔽性:(1)通过行为探索合成任务对齐输入的覆盖引导数据生成流程;(2)通过保留任务关键神经元的因果引导去毒化策略,将污染适配器与干净适配器融合。与先前方法不同,CBA支持基于因果影响的权重分配实现训练后对攻击强度的控制,无需重复训练。在六个LoRA模型上的评估表明,CBA在实现高攻击成功率的同时,将FTR较基线方法降低了50-70%。此外,该框架对最先进的后门防御技术表现出更强的抵抗能力,凸显了其隐蔽性与鲁棒性。

0
下载
关闭预览

相关内容

【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
深度学习人脸识别系统DFace
深度学习
17+阅读 · 2018年2月14日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员