Vision-language models (VLMs) achieve remarkable performance but remain vulnerable to adversarial attacks. Entropy, a measure of model uncertainty, is strongly correlated with the reliability of VLM. Prior entropy-based attacks maximize uncertainty at all decoding steps, implicitly assuming that every token contributes equally to generation instability. We show instead that a small fraction (about 20%) of high-entropy tokens, i.e., critical decision points in autoregressive generation, disproportionately governs output trajectories. By concentrating adversarial perturbations on these positions, we achieve semantic degradation comparable to global methods while using substantially smaller budgets. More importantly, across multiple representative VLMs, such selective attacks convert 35-49% of benign outputs into harmful ones, exposing a more critical safety risk. Remarkably, these vulnerable high-entropy forks recur across architecturally diverse VLMs, enabling feasible transferability (17-26% harmful rates on unseen targets). Motivated by these findings, we propose Entropy-bank Guided Adversarial attacks (EGA), which achieves competitive attack success rates (93-95%) alongside high harmful conversion, thereby revealing new weaknesses in current VLM safety mechanisms.


翻译:视觉语言模型(VLMs)在取得卓越性能的同时,仍易受对抗攻击的影响。熵作为模型不确定性的度量指标,与VLM的可靠性高度相关。先前基于熵的攻击方法在所有解码步骤中最大化不确定性,其隐含假设是每个令牌对生成不稳定的贡献均等。然而,我们发现实际上仅有一小部分(约20%)高熵令牌——即自回归生成过程中的关键决策点——对输出轨迹具有不成比例的主导作用。通过将对抗扰动集中作用于这些关键位置,我们能够在显著降低攻击预算的同时,实现与全局攻击方法相当的语义退化效果。更重要的是,在多个代表性VLM上的实验表明,此类选择性攻击可将35-49%的良性输出转化为有害输出,揭示出更为严峻的安全风险。值得注意的是,这些脆弱的高熵决策分支在不同架构的VLM中反复出现,使得攻击具备可行的迁移性(在未见目标模型上达到17-26%的有害转化率)。基于这些发现,我们提出熵库引导对抗攻击方法,该方法在实现优异攻击成功率(93-95%)的同时保持高有害转化率,从而揭示了当前VLM安全机制中新的脆弱环节。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 2025年4月5日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员