大语言模型越狱攻击: 模型、根因及其攻防演化 - 专知VIP

会员服务 ·

14

大语言模型 · 越狱攻击 ·

大语言模型越狱攻击: 模型、根因及其攻防演化

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大语言模型在各种应用中表现突出, 被广泛应用, 成为打造新质生产力的重要引擎. 然而, 当恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时, 就可能导致越狱攻击, 生成违反模型使用准则、道德或法律的内容, 引发伦理问题. 本文分析总结了越狱攻击的起源及其攻防演变过程, 首先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型; 从大语言模型的发展历程和对安全性认知的变化两个角度, 分析了越狱攻击的发展历史, 将越狱攻击存在的根因总结为大语言模型的服务属性与价值观的不匹配; 最后, 从攻防博弈的角度总结越狱攻防的演化过程, 探讨了越狱攻击的新型威胁模式和防御方法发展方向。

成为VIP会员查看完整内容

18

相关内容

大语言模型

大语言模型

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

40+阅读 · 2024年10月21日

多视角看大模型安全及实践

多视角看大模型安全及实践

专知会员服务

64+阅读 · 2024年4月1日

面向深度强化学习的对抗攻防综述

面向深度强化学习的对抗攻防综述

专知会员服务

64+阅读 · 2023年8月2日

卷积神经网络的可解释性研究综述

卷积神经网络的可解释性研究综述

专知会员服务

90+阅读 · 2023年6月5日

基于会话的推荐方法综述

基于会话的推荐方法综述

专知会员服务

29+阅读 · 2023年5月20日

「联邦学习模型安全与隐私」研究进展

「联邦学习模型安全与隐私」研究进展

专知会员服务

68+阅读 · 2022年9月24日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

面向自然语言处理的深度学习对抗样本综述

专知会员服务

45+阅读 · 2021年1月18日

深度学习模型的中毒攻击与防御综述

专知会员服务

66+阅读 · 2021年1月10日

深度学习的对抗攻击与防御方法综述

专知会员服务

98+阅读 · 2020年12月8日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

28+阅读 · 2022年11月12日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

20+阅读 · 2022年8月28日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

15+阅读 · 2021年5月8日

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

PaperWeekly

13+阅读 · 2020年12月18日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

18+阅读 · 2019年6月9日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【干货】监督学习与无监督学习简介

【干货】监督学习与无监督学习简介

专知

14+阅读 · 2018年4月4日

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

专知

18+阅读 · 2018年4月2日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

1+阅读 · 2015年12月31日

动态重叠网络上疾病与信息传播动力学建模与分析

国家自然科学基金

1+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

75+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

431+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

134+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

60+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

72+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

157+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

相关VIP内容

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

40+阅读 · 2024年10月21日

多视角看大模型安全及实践

多视角看大模型安全及实践

专知会员服务

64+阅读 · 2024年4月1日

面向深度强化学习的对抗攻防综述

面向深度强化学习的对抗攻防综述

专知会员服务

64+阅读 · 2023年8月2日

卷积神经网络的可解释性研究综述

卷积神经网络的可解释性研究综述

专知会员服务

90+阅读 · 2023年6月5日

基于会话的推荐方法综述

基于会话的推荐方法综述

专知会员服务

29+阅读 · 2023年5月20日

「联邦学习模型安全与隐私」研究进展

「联邦学习模型安全与隐私」研究进展

专知会员服务

68+阅读 · 2022年9月24日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

面向自然语言处理的深度学习对抗样本综述

专知会员服务

45+阅读 · 2021年1月18日

深度学习模型的中毒攻击与防御综述

专知会员服务

66+阅读 · 2021年1月10日

深度学习的对抗攻击与防御方法综述

专知会员服务

98+阅读 · 2020年12月8日

热门VIP内容

开通专知VIP会员享更多权益服务

适合投资人的DeepSeek分析报告

【新书】数据科学中的因果推断，638页pdf

【博士论文】将核学习器转化为融入气候科学领域知识的模型

农业机器人现状与展望

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

28+阅读 · 2022年11月12日

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

「智能博弈对抗方法」最新2022综述-博弈论与强化学习综合视角对比分析

专知

20+阅读 · 2022年8月28日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

15+阅读 · 2021年5月8日

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

TKDE 2020 | 面向严格冷启动推荐的属性图神经网络

PaperWeekly

13+阅读 · 2020年12月18日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

18+阅读 · 2019年6月9日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

【干货】监督学习与无监督学习简介

【干货】监督学习与无监督学习简介

专知

14+阅读 · 2018年4月4日

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

【推荐系统论文笔记】DKN: 基于深度知识感知的新闻推荐网络（WWW2018 ）

专知

18+阅读 · 2018年4月2日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

1+阅读 · 2015年12月31日

动态重叠网络上疾病与信息传播动力学建模与分析

国家自然科学基金

1+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

165+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

36+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

75+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

431+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

134+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

60+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

72+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

157+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

45+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

22+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员