国际机器学习会议 ICML(International Conference on Machine Learning),是全球范围内人工智能领域的顶级学术会议之一,由国际机器学习学会(IMLS)举办,与 NeurIPS、ICLR 并列为 AI 三大顶会。

ICML 2025 为第四十二届,于 7 月 13-19 日在加拿大温哥华举行。

ICML 2025 共收到 12107 篇有效论文投稿,比去年(9653篇)大幅增长了 25.4%,最终有 3260 篇论文被接收,总体接收率为 26.9%。 今年获奖论文共计 8 篇,其中包括 6 篇杰出论文奖和 2 篇杰出立场论文奖。

图片

自大语言模型(LLMs)问世以来,AI 安全领域便受到了广泛关注。相关研究致力于制定一系列最佳实践,包括评估协议、防御算法以及内容过滤器,旨在推动 LLM 及相关技术的伦理、安全与可靠部署。在 AI 安全中,一个核心议题是模型对齐(model alignment),即通过算法优化 LLM 的输出,使其符合人类价值观。然而,尽管已有大量研究努力,近期研究仍发现了多种失败模式——统称为“越狱(jailbreak)”——这些攻击手段可绕过模型对齐机制,诱导目标模型生成不安全内容。 最初的越狱攻击主要针对生成有害信息(如侵犯版权或违法内容),而当代攻击则更具针对性,聚焦于特定领域的风险,例如让数字智能体侵犯用户隐私,或操控由 LLM 控制的机器人在现实世界中执行危险行为。更严重的是,未来的攻击可能会瞄准模型的自我复制权力寻求等高风险行为。越狱攻击的隐蔽性与破坏性构成了 LLM 广泛应用的重大障碍。因此,机器学习社区亟需深入研究这些失败模式,并设计出有效的防御策略加以应对。 在过去两年中,学术界与工业界不断推动越狱攻击与防御机制的双向演化:一方面开发新的攻击方法以测试模型安全性,另一方面强化模型的防护能力。这些持续努力在整体上提升了模型的安全性。例如,OpenAI 的 o 系列模型与 Anthropic 的 Claude3 系列在应对多种越狱攻击方面展现出显著的鲁棒性。然而,越狱与防御之间的“军备竞赛”仍在持续,这也表明当前的安全水平尚未达到最终理想状态。 为系统呈现该领域的最新进展,本文教程旨在对越狱研究的演化图景提供一个统一视角。我们的主要目标如下:

回顾越狱攻击的前沿进展,涵盖新兴的算法框架与数学基础,重点关注攻击方法、防御机制、评估技术及其在机器人与智能体系统中的应用; 1. 讨论该领域的未来方向,指出越狱攻击研究仍处于起步阶段,由其带来的新挑战、新机遇与研究方向值得关注; 1. 展示一系列开源 Python 实现,涵盖当前最先进算法的实际应用与演示。

成为VIP会员查看完整内容
0

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
【ICML2025教程】大规模训练神经网络,180页
专知会员服务
29+阅读 · 7月15日
【WWW2024教程】时间网络挖掘,附486页slides
专知会员服务
36+阅读 · 2024年5月23日
【WWW2024教程】知识图谱推理进展与趋势,附190页ppt
专知会员服务
78+阅读 · 2024年5月18日
CCCF专栏 | 面向领域定制的神经网络结构设计
中国计算机学会
10+阅读 · 2018年12月17日
哈工大SCIR多名师生参加COLING 2018
哈工大SCIR
10+阅读 · 2018年9月1日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
占坑!利用 JenKins 持续集成 iOS 项目时遇到的问题
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关资讯
CCCF专栏 | 面向领域定制的神经网络结构设计
中国计算机学会
10+阅读 · 2018年12月17日
哈工大SCIR多名师生参加COLING 2018
哈工大SCIR
10+阅读 · 2018年9月1日
自然语言处理顶会EMNLP2018接受论文列表!
专知
87+阅读 · 2018年8月26日
占坑!利用 JenKins 持续集成 iOS 项目时遇到的问题
Caffe 深度学习框架上手教程
黑龙江大学自然语言处理实验室
14+阅读 · 2016年6月12日
相关基金
国家自然科学基金
3+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
472+阅读 · 2023年3月31日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员