随着人工智能领域大模型(Big Model)的广泛应用,大模型,尤其是大规模语言模型的安全问题受到了广泛关注. 大模型作为一种新兴技术,与之相关的安全态势分析以及安全体系建设均亟待挖掘与探索. 本文从社会关系以及技术应用两个视角,分析了大模型安全的整体趋势. 同时,本文基于大模型自身的特点,梳理了大模型安全能力建设的实践思路,为大模型研发、大模型应用构建提供了安全体系构建的参考方案. 本文介绍的大模型安全能力实践方案包括安全评估基准建设、模型价值观对齐方法、模型线上服务安全系统建设三个部分.

随着深度学习技术的不断发展和应用,大模型 逐渐成为学术界和工业界研究的热点. 这些模型具 有非常强大的表示能力和学习能力,可以处理各种 复杂的任务,如图像识别、自然语言处理、语音识别 等. 特别是近几年 LLM(large language model) 所展现 的惊人能力,已开始对社会发展造成一定影响,因此 模型安全问题开始显得尤为重要. 本文从人类整体 发展、国家竞争以及技术应用的 3 个不同视角看待 大模型安全,将重点介绍技术应用视角,而技术应用 主要讨论 3 个参与方的安全管理问题,并最终分析 生成内容安全的未来发展趋势. 在上述分析的基础上,本文梳理了大模型安全 能力建设的实践思路,从模型安全评估基准建设、模 型价值观对其方法、模型线上服务安全系统 3 个方 面,阐述了大模型安全能力支撑体系的构建方案. 本文所述的大模型安全,主要围绕大模型生成内容的安全性. 大模型安全主要包括系统安全、生成 内容安全 2 个方向. 大模型系统安全方面所遇到的问 题、问题的解决方案与计算机领域传统信息安全领 域接近,本文仅对此方面进行简要介绍. 生成内容安 全是大模型特有的安全问题,这一问题是由大模型 自然语言生成能力相对于以往的语言模型有显著提 升带来的,因此本文主要针对生成内容安全问题进 行讨论.

成为VIP会员查看完整内容
56

相关内容

基于学习机制的多智能体强化学习综述
专知会员服务
40+阅读 · 4月16日
引入反事实基线的无人机集群对抗博弈方法
专知会员服务
36+阅读 · 3月13日
大语言模型安全现状与挑战
专知会员服务
57+阅读 · 1月14日
用于识别任务的视觉 Transformer 综述
专知会员服务
64+阅读 · 2023年2月25日
多模态数据的行为识别综述
专知会员服务
69+阅读 · 2022年11月30日
「联邦学习模型安全与隐私」研究进展
专知会员服务
65+阅读 · 2022年9月24日
多模态人机交互综述
专知会员服务
127+阅读 · 2022年7月3日
专知会员服务
34+阅读 · 2021年8月27日
专知会员服务
83+阅读 · 2021年8月8日
专知会员服务
41+阅读 · 2021年6月25日
清华大学:从单体仿生到群体智能
专知
14+阅读 · 2022年2月9日
智能合约的形式化验证方法研究综述
专知
14+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
27+阅读 · 2020年12月10日
深度学习可解释性研究进展
专知
17+阅读 · 2020年6月26日
层级强化学习概念简介
CreateAMind
14+阅读 · 2019年6月9日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
深度学习技术发展趋势浅析
人工智能学家
26+阅读 · 2019年4月11日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
10+阅读 · 2018年11月22日
【干货】监督学习与无监督学习简介
专知
12+阅读 · 2018年4月4日
网络安全态势感知浅析
计算机与网络安全
16+阅读 · 2017年10月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关VIP内容
基于学习机制的多智能体强化学习综述
专知会员服务
40+阅读 · 4月16日
引入反事实基线的无人机集群对抗博弈方法
专知会员服务
36+阅读 · 3月13日
大语言模型安全现状与挑战
专知会员服务
57+阅读 · 1月14日
用于识别任务的视觉 Transformer 综述
专知会员服务
64+阅读 · 2023年2月25日
多模态数据的行为识别综述
专知会员服务
69+阅读 · 2022年11月30日
「联邦学习模型安全与隐私」研究进展
专知会员服务
65+阅读 · 2022年9月24日
多模态人机交互综述
专知会员服务
127+阅读 · 2022年7月3日
专知会员服务
34+阅读 · 2021年8月27日
专知会员服务
83+阅读 · 2021年8月8日
专知会员服务
41+阅读 · 2021年6月25日
相关资讯
清华大学:从单体仿生到群体智能
专知
14+阅读 · 2022年2月9日
智能合约的形式化验证方法研究综述
专知
14+阅读 · 2021年5月8日
基于深度学习的数据融合方法研究综述
专知
27+阅读 · 2020年12月10日
深度学习可解释性研究进展
专知
17+阅读 · 2020年6月26日
层级强化学习概念简介
CreateAMind
14+阅读 · 2019年6月9日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
深度学习技术发展趋势浅析
人工智能学家
26+阅读 · 2019年4月11日
【大数据】大数据参考架构和关键技术(综合)
产业智能官
10+阅读 · 2018年11月22日
【干货】监督学习与无监督学习简介
专知
12+阅读 · 2018年4月4日
网络安全态势感知浅析
计算机与网络安全
16+阅读 · 2017年10月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员