视觉语言模型(VLMs)在多模态任务中取得了显著进展,但它们更复杂的架构使得其安全性对齐比大型语言模型(LLMs)更具挑战性。在本文中,我们揭示了VLM视觉编码器各层之间安全性分布的不公平性,发现较早和中间层相较于更强健的最终层,对恶意输入的脆弱性较大。这种“跨层”脆弱性源于模型未能将其安全性训练从训练时使用的默认架构设置泛化到未见或分布外的场景,导致某些层暴露在外。我们通过投影来自不同中间层的激活进行全面分析,并证明这些层在暴露于恶意输入时更可能生成有害的输出。我们对LLaVA-1.5和Llama 3.2的实验显示,攻击成功率和毒性评分在各层之间存在差异,表明当前仅针对单一默认层的安全对齐策略是不足够的。

https://www.zhuanzhi.ai/paper/aee20b391ebcba21579a887eb82a5475

成为VIP会员查看完整内容
2

相关内容

【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
25+阅读 · 2023年4月3日
【CVPR2022】循环动态嵌入的视频目标分割
专知会员服务
19+阅读 · 2022年5月16日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
17+阅读 · 2021年9月8日
专知会员服务
21+阅读 · 2021年4月15日
专知会员服务
30+阅读 · 2021年4月5日
【AAAI2021】基于内容迁移的无监督领域自适应语义分割
专知会员服务
18+阅读 · 2020年12月25日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
25+阅读 · 2023年4月3日
【CVPR2022】循环动态嵌入的视频目标分割
专知会员服务
19+阅读 · 2022年5月16日
【NeurIPS2021】用于视频分割的密集无监督学习
专知会员服务
15+阅读 · 2021年11月14日
专知会员服务
17+阅读 · 2021年9月8日
专知会员服务
21+阅读 · 2021年4月15日
专知会员服务
30+阅读 · 2021年4月5日
【AAAI2021】基于内容迁移的无监督领域自适应语义分割
专知会员服务
18+阅读 · 2020年12月25日
【AAAI2021】协同挖掘:用于稀疏注释目标检测的自监督学习
相关资讯
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【AAAI2021】自监督对应学习的对比转换
专知
12+阅读 · 2020年12月11日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
CVPR 2019:精确目标检测的不确定边界框回归
AI科技评论
13+阅读 · 2019年9月16日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员