多视角看大模型安全及实践 - 专知VIP

会员服务 ·

41

大模型安全 · 大模型 ·

2024 年 4 月 1 日

多视角看大模型安全及实践

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着人工智能领域大模型（Big Model）的广泛应用，大模型，尤其是大规模语言模型的安全问题受到了广泛关注. 大模型作为一种新兴技术，与之相关的安全态势分析以及安全体系建设均亟待挖掘与探索. 本文从社会关系以及技术应用两个视角，分析了大模型安全的整体趋势. 同时，本文基于大模型自身的特点，梳理了大模型安全能力建设的实践思路，为大模型研发、大模型应用构建提供了安全体系构建的参考方案. 本文介绍的大模型安全能力实践方案包括安全评估基准建设、模型价值观对齐方法、模型线上服务安全系统建设三个部分.

随着深度学习技术的不断发展和应用，大模型逐渐成为学术界和工业界研究的热点. 这些模型具有非常强大的表示能力和学习能力，可以处理各种复杂的任务，如图像识别、自然语言处理、语音识别等. 特别是近几年 LLM(large language model) 所展现的惊人能力，已开始对社会发展造成一定影响，因此模型安全问题开始显得尤为重要. 本文从人类整体发展、国家竞争以及技术应用的 3 个不同视角看待大模型安全，将重点介绍技术应用视角，而技术应用主要讨论 3 个参与方的安全管理问题，并最终分析生成内容安全的未来发展趋势. 在上述分析的基础上，本文梳理了大模型安全能力建设的实践思路，从模型安全评估基准建设、模型价值观对其方法、模型线上服务安全系统 3 个方面，阐述了大模型安全能力支撑体系的构建方案. 本文所述的大模型安全，主要围绕大模型生成内容的安全性. 大模型安全主要包括系统安全、生成内容安全 2 个方向. 大模型系统安全方面所遇到的问题、问题的解决方案与计算机领域传统信息安全领域接近，本文仅对此方面进行简要介绍. 生成内容安全是大模型特有的安全问题，这一问题是由大模型自然语言生成能力相对于以往的语言模型有显著提升带来的，因此本文主要针对生成内容安全问题进行讨论.

成为VIP会员查看完整内容

68

相关内容

大模型安全

大模型安全

低质量数据的多模态融合综述

低质量数据的多模态融合综述

专知会员服务

53+阅读 · 2024年5月4日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

60+阅读 · 2024年4月16日

引入反事实基线的无人机集群对抗博弈方法

引入反事实基线的无人机集群对抗博弈方法

专知会员服务

64+阅读 · 2024年3月13日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

74+阅读 · 2023年2月25日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知会员服务

87+阅读 · 2022年11月30日

「联邦学习模型安全与隐私」研究进展

「联邦学习模型安全与隐私」研究进展

专知会员服务

69+阅读 · 2022年9月24日

多模态人机交互综述

多模态人机交互综述

专知会员服务

148+阅读 · 2022年7月3日

基于深度学习的显著性目标检测方法综述

专知会员服务

36+阅读 · 2021年8月27日

小目标检测研究进展

专知会员服务

91+阅读 · 2021年8月8日

人工智能赋能网络攻击的安全威胁及应对策略

专知会员服务

46+阅读 · 2021年6月25日

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知

18+阅读 · 2022年2月9日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

34+阅读 · 2020年12月10日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

【深度学习】深度学习技术发展趋势浅析

【深度学习】深度学习技术发展趋势浅析

产业智能官

11+阅读 · 2019年4月13日

深度学习技术发展趋势浅析

深度学习技术发展趋势浅析

人工智能学家

28+阅读 · 2019年4月11日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

【干货】监督学习与无监督学习简介

【干货】监督学习与无监督学习简介

专知

14+阅读 · 2018年4月4日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

4+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

管理决策大数据分析方法与关键技术

国家自然科学基金

8+阅读 · 2015年12月31日

相互关联研发网络上风险级联传播建模及控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

绿色创新的路径依赖与解锁策略：基于过程视角的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

大模型安全

相关VIP内容

低质量数据的多模态融合综述

低质量数据的多模态融合综述

专知会员服务

53+阅读 · 2024年5月4日

基于学习机制的多智能体强化学习综述

基于学习机制的多智能体强化学习综述

专知会员服务

60+阅读 · 2024年4月16日

引入反事实基线的无人机集群对抗博弈方法

引入反事实基线的无人机集群对抗博弈方法

专知会员服务

64+阅读 · 2024年3月13日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

74+阅读 · 2023年2月25日

多模态数据的行为识别综述

多模态数据的行为识别综述

专知会员服务

87+阅读 · 2022年11月30日

「联邦学习模型安全与隐私」研究进展

「联邦学习模型安全与隐私」研究进展

专知会员服务

69+阅读 · 2022年9月24日

多模态人机交互综述

多模态人机交互综述

专知会员服务

148+阅读 · 2022年7月3日

基于深度学习的显著性目标检测方法综述

专知会员服务

36+阅读 · 2021年8月27日

小目标检测研究进展

专知会员服务

91+阅读 · 2021年8月8日

人工智能赋能网络攻击的安全威胁及应对策略

专知会员服务

46+阅读 · 2021年6月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《步兵小单元山地严寒作战指南》美军最新条令200页

《联合作战概念的发展》最新报告

俄制无人机弹药

《复杂场景下自主着陆的模型预测控制技术》92页

相关资讯

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知

18+阅读 · 2022年2月9日

智能合约的形式化验证方法研究综述

智能合约的形式化验证方法研究综述

专知

16+阅读 · 2021年5月8日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

34+阅读 · 2020年12月10日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

层级强化学习概念简介

层级强化学习概念简介

CreateAMind

19+阅读 · 2019年6月9日

【深度学习】深度学习技术发展趋势浅析

【深度学习】深度学习技术发展趋势浅析

产业智能官

11+阅读 · 2019年4月13日

深度学习技术发展趋势浅析

深度学习技术发展趋势浅析

人工智能学家

28+阅读 · 2019年4月11日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

【干货】监督学习与无监督学习简介

【干货】监督学习与无监督学习简介

专知

14+阅读 · 2018年4月4日

网络安全态势感知浅析

网络安全态势感知浅析

计算机与网络安全

18+阅读 · 2017年10月13日

相关基金

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

4+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

管理决策大数据分析方法与关键技术

国家自然科学基金

8+阅读 · 2015年12月31日

相互关联研发网络上风险级联传播建模及控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有适应性安全的基于属性加密算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构化管理决策大数据平台构建与关键技术

国家自然科学基金

11+阅读 · 2015年12月31日

绿色创新的路径依赖与解锁策略：基于过程视角的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

基于网络传导的金融系统风险度量：理论及其应用

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员