【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导 - 专知VIP

会员服务 ·

3

ACL 2025 · 大语言模型 · 预训练模型 ·

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

**预训练生成模型，尤其是大语言模型（LLMs），为用户与计算机的交互提供了全新的方式。**尽管早期的自然语言生成（NLP）研究和应用主要集中在特定领域或特定任务上，但当前的大语言模型及其应用（如对话系统、智能体）在多任务和多领域之间表现出广泛的通用性。尽管这些模型在训练阶段被设计为有帮助、符合人类偏好（例如无害性），但对其施加强健的“护栏”仍是一个具有挑战性的问题。即使已经防范了基础的攻击方式，像其他复杂软件系统一样，LLMs 仍可能面临利用精巧对抗性输入发起攻击的风险。本教程全面介绍了为大语言模型开发的关键“护栏”机制，同时涵盖了评估方法论和详尽的安全评估协议——包括对 LLM 驱动应用的自动红队测试（auto red-teaming）。我们的目标是超越对单一提示攻击（prompt attack）和评估框架的讨论，转而聚焦于如何在复杂对话系统中实施护栏策略，尤其是在这些系统中嵌入了 LLM。我们致力于提供一份关于大语言模型在生产环境中部署风险的前沿且全面的综述。尽管主要关注如何有效防御安全性与可信性威胁，我们也讨论了一个较新的方向：如何在对话和话题层面施加引导，包括遵守自定义策略。此外，我们还分析了由 LLM 支持的对话系统所引入的新型攻击向量，例如规避对话引导的方法等。

成为VIP会员查看完整内容

4

相关内容

ACL 2025

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

专知会员服务

17+阅读 · 3月11日

【CVPR2025】知识桥接器：走向无训练的缺失模态补全

【CVPR2025】知识桥接器：走向无训练的缺失模态补全

专知会员服务

14+阅读 · 2月28日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

27+阅读 · 1月5日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

31+阅读 · 2024年8月23日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

65+阅读 · 2024年6月10日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

101+阅读 · 2023年8月31日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

87+阅读 · 2023年3月17日

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

专知会员服务

19+阅读 · 2022年10月3日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知会员服务

50+阅读 · 2019年11月25日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知

276+阅读 · 2019年2月9日

【下载】PyTorch 实现的YOLO v2目标检测算法

【下载】PyTorch 实现的YOLO v2目标检测算法

专知

15+阅读 · 2017年12月27日

【下载】 TensorFlow：实战Google深度学习框架

【下载】 TensorFlow：实战Google深度学习框架

专知

16+阅读 · 2017年12月23日

中国地区生产率差距研究——基于异质性企业、劳动力与产业空间分布的视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

大语言模型

预训练模型

相关VIP内容

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

【CMU博士论文】通过模块化与规模化解锁机器人技术的泛化能力

专知会员服务

17+阅读 · 3月11日

【CVPR2025】知识桥接器：走向无训练的缺失模态补全

【CVPR2025】知识桥接器：走向无训练的缺失模态补全

专知会员服务

14+阅读 · 2月28日

【斯坦福博士论文】通过深度状态空间方法推进序列建模

【斯坦福博士论文】通过深度状态空间方法推进序列建模

专知会员服务

27+阅读 · 1月5日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

31+阅读 · 2024年8月23日

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式AI的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

65+阅读 · 2024年6月10日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

101+阅读 · 2023年8月31日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

87+阅读 · 2023年3月17日

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

【VLDB2022教程】从BERT到GPT-3 Codex:利用大型语言模型的潜力进行数据管理

专知会员服务

19+阅读 · 2022年10月3日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知会员服务

50+阅读 · 2019年11月25日

热门VIP内容

开通专知VIP会员享更多权益服务

【ACL2025教程】大语言模型的护栏与安全性：对其应用的安全、可靠与可控引导

《实现协同自主：从人机协作到多智能体系统》最新190页

【ICML2025】SToFM：一种用于空间转录组学的多尺度基础模型

通信网络智能体白皮书V1.0，61页pdf

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

图怎么用强化学习？东北大学最新《图强化学习》综述论文，54页pdf阐述GRL方法、数据与应用

专知

12+阅读 · 2022年4月14日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

论文浅尝 | 如何利用外部知识提高预训练模型在阅读理解任务中的性能

开放知识图谱

10+阅读 · 2019年10月29日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

【干货】用BRET进行多标签文本分类（附代码）

【干货】用BRET进行多标签文本分类（附代码）

专知

276+阅读 · 2019年2月9日

【下载】PyTorch 实现的YOLO v2目标检测算法

【下载】PyTorch 实现的YOLO v2目标检测算法

专知

15+阅读 · 2017年12月27日

【下载】 TensorFlow：实战Google深度学习框架

【下载】 TensorFlow：实战Google深度学习框架

专知

16+阅读 · 2017年12月23日

相关基金

中国地区生产率差距研究——基于异质性企业、劳动力与产业空间分布的视角

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

机制转化下的最优停时问题研究---以金融中投资决策分析为例

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

外包与云计算情境下IT业务匹配研究：适应性结构化理论视角

国家自然科学基金

2+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

214+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员