大语言模型在各种应用中表现突出,被广泛应用,成为打造新质生产力的重要引擎。然而,当恶意使用者利用特定技巧绕过模型的对齐等安全保护机制时,就可能导致越狱攻击,生成违反模型使用准则、道德或法律的内容,引发伦理问题。本文分析总结了越狱攻击的起源及其攻防演变过程,首先根据方法、对象、目标三要素提出了越狱攻击的定义和形式化模型;从大语言模型的发展历程和对安全性认知的变化两个角度,分析了越狱攻击的发展历史,将越狱攻击存在的根因总结为大语言模型的服务属性与价值观的不匹配;最后,从攻防博弈的角度总结越狱攻防的演化过程,探讨了越狱攻击的新型威胁模式和防御方法发展方向。

成为VIP会员查看完整内容
15

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
22+阅读 · 2月16日
深度学习模型反演攻击与防御:全面综述
专知会员服务
23+阅读 · 2月3日
大语言模型评估技术研究进展
专知会员服务
47+阅读 · 2024年7月9日
有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
专知会员服务
23+阅读 · 2021年8月22日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
专知会员服务
67+阅读 · 2021年1月10日
专知会员服务
99+阅读 · 2020年12月8日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
34+阅读 · 2020年6月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
19+阅读 · 2017年5月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
168+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
453+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
167+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大语言模型越狱攻击: 模型、根因及其攻防演化
专知会员服务
22+阅读 · 2月16日
深度学习模型反演攻击与防御:全面综述
专知会员服务
23+阅读 · 2月3日
大语言模型评估技术研究进展
专知会员服务
47+阅读 · 2024年7月9日
有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
专知会员服务
23+阅读 · 2021年8月22日
深度学习赋能的恶意代码攻防研究进展
专知会员服务
30+阅读 · 2021年4月11日
专知会员服务
67+阅读 · 2021年1月10日
专知会员服务
99+阅读 · 2020年12月8日
相关资讯
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
33+阅读 · 2020年12月10日
模型攻击:鲁棒性联邦学习研究的最新进展
机器之心
34+阅读 · 2020年6月3日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【干货】监督学习与无监督学习简介
专知
14+阅读 · 2018年4月4日
侦测欺诈交易(异常点检测)
GBASE数据工程部数据团队
19+阅读 · 2017年5月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员