本教程全面概述了大型语言模型(LLMs)在对抗攻击下暴露的脆弱性——这是一个可信机器学习中新兴的跨学科领域,结合了自然语言处理(NLP)和网络安全的视角。我们强调了单模态LLM、多模态LLM以及集成LLM的系统中现有的脆弱性,重点关注旨在利用这些弱点并误导AI系统的对抗攻击。 研究人员一直在通过将模型与预期原则对齐来应对这些安全问题,采用了如指令微调和通过人类反馈进行强化学习等技术。理想情况下,这些对齐的LLM应该是有帮助且无害的。然而,过去的研究表明,即使是那些经过安全训练的模型也可能受到对抗攻击的影响,例如在ChatGPT或Bard等模型上频繁出现的“越狱”攻击就证明了这一点。 本教程概述了大型语言模型,并描述了它们是如何进行安全对齐的。随后,我们根据不同的学习结构组织现有研究,涵盖了文本攻击、多模态攻击以及其他攻击方法。最后,我们分享了对脆弱性潜在原因的见解,并提出了可能的防御策略。

https://llm-vulnerability.github.io/

大型语言模型(LLMs)的架构和能力正在迅速发展,随着它们更加深入地集成到复杂系统中,审查其安全属性的紧迫性也在增加。本文调研了对LLMs进行对抗攻击的研究,这是可信机器学习中的一个新兴跨学科领域,结合了自然语言处理和安全性的视角。先前的研究表明,即使是通过指令微调和人类反馈强化学习等方法进行安全对齐的LLM,也可能受到对抗攻击的影响,这些攻击利用了模型的弱点并误导AI系统,正如在ChatGPT和Bard等模型上频繁出现的“越狱”攻击所证明的那样。在本次调研中,我们首先概述了大型语言模型,描述了它们的安全对齐,并根据不同的学习结构对现有研究进行了分类:文本攻击、多模态攻击,以及专门针对复杂系统(如联邦学习或多智能体系统)的其他攻击方法。我们还对研究中关注脆弱性根本来源和潜在防御措施的工作进行了全面评述。为了让该领域对新手更具可及性,我们对现有工作进行了系统回顾,构建了对抗攻击概念的结构化分类,并提供了包括在第62届计算语言学协会年会(ACL’24)上相关主题的演示幻灯片等附加资源。

成为VIP会员查看完整内容
24

相关内容

【报告】多模态大型语言模型综述,30页ppt
专知会员服务
39+阅读 · 8月29日
【EMNLP2023教程】自然语言处理可视化,200页ppt
专知会员服务
52+阅读 · 2023年12月6日
【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
【干货书】计算优化:实践中的成功,415页pdf
专知会员服务
67+阅读 · 2022年12月29日
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
专知会员服务
126+阅读 · 2021年8月13日
【干货书】优化算法,232页pdf
专知
24+阅读 · 2022年9月8日
国家自然科学基金
12+阅读 · 2016年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
148+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
376+阅读 · 2023年3月31日
Arxiv
64+阅读 · 2023年3月26日
Arxiv
133+阅读 · 2023年3月24日
Arxiv
19+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
12+阅读 · 2016年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员