**预训练生成模型,尤其是大语言模型(LLMs),为用户与计算机的交互提供了全新的方式。**尽管早期的自然语言生成(NLP)研究和应用主要集中在特定领域或特定任务上,但当前的大语言模型及其应用(如对话系统、智能体)在多任务和多领域之间表现出广泛的通用性。尽管这些模型在训练阶段被设计为有帮助、符合人类偏好(例如无害性),但对其施加强健的“护栏”仍是一个具有挑战性的问题。即使已经防范了基础的攻击方式,像其他复杂软件系统一样,LLMs 仍可能面临利用精巧对抗性输入发起攻击的风险。 本教程全面介绍了为大语言模型开发的关键“护栏”机制,同时涵盖了评估方法论和详尽的安全评估协议——包括对 LLM 驱动应用的自动红队测试(auto red-teaming)。我们的目标是超越对单一提示攻击(prompt attack)和评估框架的讨论,转而聚焦于如何在复杂对话系统中实施护栏策略,尤其是在这些系统中嵌入了 LLM。 我们致力于提供一份关于大语言模型在生产环境中部署风险的前沿且全面的综述。尽管主要关注如何有效防御安全性与可信性威胁,我们也讨论了一个较新的方向:如何在对话和话题层面施加引导,包括遵守自定义策略。此外,我们还分析了由 LLM 支持的对话系统所引入的新型攻击向量,例如规避对话引导的方法等。

成为VIP会员查看完整内容
4

相关内容

【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
31+阅读 · 2024年8月23日
【下载】PyTorch 实现的YOLO v2目标检测算法
专知
15+阅读 · 2017年12月27日
【下载】 TensorFlow:实战Google深度学习框架
专知
16+阅读 · 2017年12月23日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
78+阅读 · 2023年3月26日
Arxiv
172+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员