【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt - 专知VIP

会员服务 ·

12

ACL 2024 · 大型语言模型 · 对抗攻击 ·

2024 年 8 月 14 日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本教程全面概述了大型语言模型（LLMs）在对抗攻击下暴露的脆弱性——这是一个可信机器学习中新兴的跨学科领域，结合了自然语言处理（NLP）和网络安全的视角。我们强调了单模态LLM、多模态LLM以及集成LLM的系统中现有的脆弱性，重点关注旨在利用这些弱点并误导AI系统的对抗攻击。研究人员一直在通过将模型与预期原则对齐来应对这些安全问题，采用了如指令微调和通过人类反馈进行强化学习等技术。理想情况下，这些对齐的LLM应该是有帮助且无害的。然而，过去的研究表明，即使是那些经过安全训练的模型也可能受到对抗攻击的影响，例如在ChatGPT或Bard等模型上频繁出现的“越狱”攻击就证明了这一点。本教程概述了大型语言模型，并描述了它们是如何进行安全对齐的。随后，我们根据不同的学习结构组织现有研究，涵盖了文本攻击、多模态攻击以及其他攻击方法。最后，我们分享了对脆弱性潜在原因的见解，并提出了可能的防御策略。

https://llm-vulnerability.github.io/

大型语言模型（LLMs）的架构和能力正在迅速发展，随着它们更加深入地集成到复杂系统中，审查其安全属性的紧迫性也在增加。本文调研了对LLMs进行对抗攻击的研究，这是可信机器学习中的一个新兴跨学科领域，结合了自然语言处理和安全性的视角。先前的研究表明，即使是通过指令微调和人类反馈强化学习等方法进行安全对齐的LLM，也可能受到对抗攻击的影响，这些攻击利用了模型的弱点并误导AI系统，正如在ChatGPT和Bard等模型上频繁出现的“越狱”攻击所证明的那样。在本次调研中，我们首先概述了大型语言模型，描述了它们的安全对齐，并根据不同的学习结构对现有研究进行了分类：文本攻击、多模态攻击，以及专门针对复杂系统（如联邦学习或多智能体系统）的其他攻击方法。我们还对研究中关注脆弱性根本来源和潜在防御措施的工作进行了全面评述。为了让该领域对新手更具可及性，我们对现有工作进行了系统回顾，构建了对抗攻击概念的结构化分类，并提供了包括在第62届计算语言学协会年会（ACL’24）上相关主题的演示幻灯片等附加资源。

成为VIP会员查看完整内容

33

相关内容

ACL 2024

【报告】多模态大型语言模型综述，30页ppt

【报告】多模态大型语言模型综述，30页ppt

专知会员服务

68+阅读 · 2024年8月29日

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

专知会员服务

60+阅读 · 2024年6月21日

【EMNLP2023教程】自然语言处理可视化,200页ppt

【EMNLP2023教程】自然语言处理可视化,200页ppt

专知会员服务

53+阅读 · 2023年12月6日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【MIT-Stefanie Jegelka】图神经网络理论:表示与学习，48页ppt，附视频与Slides

【MIT-Stefanie Jegelka】图神经网络理论:表示与学习，48页ppt，附视频与Slides

专知会员服务

30+阅读 · 2022年11月7日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【AAAI2022教程】深度神经网络的形式化验证:理论与实践，80页ppt与视频

【AAAI2022教程】深度神经网络的形式化验证:理论与实践，80页ppt与视频

专知会员服务

20+阅读 · 2022年2月25日

【干货书】用Python解决算法问题，360页pdf

专知会员服务

127+阅读 · 2021年8月13日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

173+阅读 · 2021年3月19日

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

专知

25+阅读 · 2022年10月26日

【干货书】Python中的数据结构和算法，928页pdf

【干货书】Python中的数据结构和算法，928页pdf

专知

21+阅读 · 2022年9月25日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

29+阅读 · 2022年5月26日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

40+阅读 · 2022年3月18日

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

专知

18+阅读 · 2021年5月8日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

专知

25+阅读 · 2020年5月15日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

33+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

大型语言模型

相关VIP内容

【报告】多模态大型语言模型综述，30页ppt

【报告】多模态大型语言模型综述，30页ppt

专知会员服务

68+阅读 · 2024年8月29日

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

专知会员服务

60+阅读 · 2024年6月21日

【EMNLP2023教程】自然语言处理可视化,200页ppt

【EMNLP2023教程】自然语言处理可视化,200页ppt

专知会员服务

53+阅读 · 2023年12月6日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【干货书】计算优化:实践中的成功，415页pdf

【干货书】计算优化:实践中的成功，415页pdf

专知会员服务

70+阅读 · 2022年12月29日

【MIT-Stefanie Jegelka】图神经网络理论:表示与学习，48页ppt，附视频与Slides

【MIT-Stefanie Jegelka】图神经网络理论:表示与学习，48页ppt，附视频与Slides

专知会员服务

30+阅读 · 2022年11月7日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【AAAI2022教程】深度神经网络的形式化验证:理论与实践，80页ppt与视频

【AAAI2022教程】深度神经网络的形式化验证:理论与实践，80页ppt与视频

专知会员服务

20+阅读 · 2022年2月25日

【干货书】用Python解决算法问题，360页pdf

专知会员服务

127+阅读 · 2021年8月13日

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

【干货书】Python实现机器学习算法的一步一步指南，103页pdf

专知会员服务

173+阅读 · 2021年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

【干货书】Python中的商业分析概念、技术和应用的数据挖掘，607页pdf

专知

25+阅读 · 2022年10月26日

【干货书】Python中的数据结构和算法，928页pdf

【干货书】Python中的数据结构和算法，928页pdf

专知

21+阅读 · 2022年9月25日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

29+阅读 · 2022年5月26日

【干货书】Pytorch创建和部署深度学习应用，294页pdf

【干货书】Pytorch创建和部署深度学习应用，294页pdf

专知

40+阅读 · 2022年3月18日

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

不可错过！图宾根大学《深度学习》课程，12讲述神经网络、GNN、GAN、序列模型等主题，附Slides与151页pdf笔记

专知

18+阅读 · 2021年5月8日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

【实用书】Python文本分析第二版，688页pdf带你入门自然语言处理

专知

25+阅读 · 2020年5月15日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

相关基金

拓扑非线性分析专题讲习班

国家自然科学基金

15+阅读 · 2016年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

33+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

12+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

企业多层次信息技术匹配及其对敏捷性的影响机理

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员