机器学习(ML)模型在复杂性和实用性上显著增长,推动了多个领域的进步。然而,巨大的计算资源需求和专业化的技术壁垒,历史上一直限制着其广泛采用。机器学习即服务(Machine-Learning-as-a-Service, MLaaS)平台通过用户友好的 API 提供可扩展、便捷且经济高效的访问方式,突破了这些障碍,使用户能够利用先进的 ML 模型。虽然这种易用性促进了高级 ML 能力的普及,但也引入了新的漏洞,容易被模型提取攻击(Model Extraction Attacks, MEAs)所利用。近期研究表明,对手可以通过与公开接口的交互系统性地复制目标模型的功能,从而威胁知识产权、隐私和系统安全。
在本文中,我们对 MEAs 及相应的防御策略进行了全面综述,并提出了一种新的分类法,从攻击机制、防御方法和计算环境三个维度对 MEAs 进行系统归类。我们的分析涵盖了多种攻击技术,评估了其有效性,并突出强调了现有防御所面临的挑战,尤其是保持模型效用与确保安全性之间的关键权衡。我们进一步在不同计算范式下评估了 MEAs,并讨论了其技术、伦理、法律和社会层面的影响,同时指出了未来有前景的研究方向。 本综述旨在为从事人工智能安全与隐私研究的学者、实践者和政策制定者提供有价值的参考。此外,我们还维护了一个在线文献仓库,持续更新相关研究成果:
https://github.com/kzhao5/ModelExtractionPapers。
机器学习即服务(Machine-Learning-as-a-Service, MLaaS)的兴起极大地改善了人工智能技术的可获得性,它降低了传统上与采用和部署复杂机器学习模型相关的门槛 [237]。在早期,部署机器学习需要在计算基础设施、大规模数据存储以及开发、训练和维护模型所需的专业知识方面进行大量投资。这些要求本质上将先进 AI 能力的采用限制在资源充足的组织范围内。MLaaS 平台通过用户友好的标准化 API 抽象化了模型开发与部署的复杂性,从而解决了这一问题。因此,无论组织规模大小或技术水平高低,开发者和企业都可以将复杂的 AI 模型集成到应用中,而无需直接参与模型训练、硬件配置或可扩展性管理。这种易用性促进了在医疗 [88, 101]、金融 [3, 88, 171] 等多个领域的广泛应用,有效推动了 AI 的民主化,使得资源有限、技术储备不足的实体也能受益。 然而,MLaaS 的公开接口虽然对其集成至关重要,但也无意中引入了新的安全漏洞 [158, 201]。具体而言,对手可以利用 MLaaS 所依赖的查询-响应机制,系统性地探测并推断模型的关键信息,包括架构、参数和决策边界。这类模型提取攻击(Model Extraction Attacks, MEAs)构成了严重威胁,可能泄露私有模型的知识产权,并使未经授权的复制与滥用成为可能 [102, 153, 185]。
攻击者通常通过精心设计的查询反复与目标模型交互,逐步探测其决策边界和响应行为 [87, 158, 201]。通过分析模型响应,攻击者能够逐渐积累关于其架构、参数以及决策过程的知识,并最终构建出一个功能上高度相似的替代模型 [102, 153, 185]。这一提取过程往往通过迭代优化变得更加高效,即利用前序查询的见解来设计更具信息量的后续查询,从而减少总查询次数 [87, 185]。近期研究揭示了 MEAs 在多个领域的严重性与广泛性:在大语言模型方面,有研究表明仅用极少资源即可复现接近 GPT-3.5 的性能 [10],随后又有工作展示了通过优化提示即可低成本完成模型提取 [29],由此催生了 WormGPT、FraudGPT 等恶意 LLM 变种并被用于非法活动 [56]。在自动驾驶中,也出现了类似令人担忧的趋势:黑盒访问可重建核心模块(如目标检测与路径规划)[82, 153],从而助长了针对交通标志的对抗性篡改 [24, 218]。在边缘计算和联邦学习中,攻击者甚至可以通过电磁 [18] 或缓存时序分析 [232] 等侧信道漏洞实施攻击。这些影响涵盖了包括视觉-语言模型 [220]、强化学习 [38] 和扩散模型 [50] 在内的多种架构,所提取出的模型可被用于敏感数据推断 [30, 84, 110, 257] 或实施定向攻击 [149, 229]。金融领域尤其脆弱,已有攻击者通过系统化 API 查询重建预测与风险评估模型 [97, 200]。一个真实案例是阿联酋发生的 3500 万美元语音欺诈事件,说明当提取模型与生物识别数据结合时,可以实现高度复杂的诈骗 [144]。总体来看,这些漏洞表明,MEAs 是对整个 MLaaS 生态系统的系统性威胁,而非孤立事件 [102, 185]。 尽管已有大量研究进展,但在模型提取攻击与防御领域仍存在诸多未解决的关键挑战。首先,对于提取攻击方法的系统性理解仍存在显著缺口。不同模型架构、数据模态和计算范式下提取的基本限制仍缺乏定量化理论框架,难以为更有效的防御策略提供坚实基础。其次,防御方法本身碎片化且复杂,涵盖了从扰动、数字水印到异常检测、差分隐私等多种策略,每一种都有独特的优劣势。这种复杂性使得在特定场景和威胁模型下选择合适防御方案变得极具挑战。尤其是在对安全性和准确性有严格要求的高风险应用中,如何在有效防护与最小性能损耗之间取得平衡尤为困难。与此同时,利用高级优化与生成模型的复杂攻击手段仍在快速演进,迫切需要持续创新的防御机制。此外,模型提取的伦理、法律与社会影响尚未得到充分探索,尤其是涉及知识产权和提取模型恶意利用的问题。要弥合攻击与防御发展之间的鸿沟,这些挑战必须得到解决。 基于上述背景,本文旨在提供关于模型提取攻击与防御的全面、最新综述。我们的主要目标是建立一个统一框架,从攻击技术、防御策略、应用场景及潜在影响等方面系统性地分析 MEAs。在这一总体介绍之后,我们首先介绍相关的背景知识与基本概念;随后提出一种新颖且全面的分类法,从攻击机制、防御手段和计算环境三个维度对 MEAs 进行系统分类;接着我们对现有攻击与防御技术进行详细、系统的回顾,阐述其方法、优缺点以及最适用的条件;进一步,我们讨论 MEAs 及对应防御在不同计算范式(包括集中式、云计算、边缘计算和联邦学习)下的挑战与潜在解决方案;此外,我们还从技术、伦理、法律和社会等多个维度评估这些攻击的影响,明确关键研究挑战并展望未来研究方向,推动鲁棒防御机制的发展。最后,我们建立了一个在线资源库,持续更新和汇集模型提取领域的相关文献与资源,帮助研究者掌握最新进展。我们的研究不仅覆盖技术层面,也探讨了伦理、法律与社会问题,为负责任的 AI 发展提供指导。 本文的主要贡献包括以下四点:
提出全面的模型提取分类法:我们提出了一种新颖而全面的分类框架,从攻击机制、防御策略和计算环境三个维度系统性地对 MEAs 进行分类。 * 系统性回顾现有技术:我们对现有的模型提取攻击与防御技术进行系统性回顾,深入分析其方法、优缺点及适用条件。 * 多维度评估与未来展望:我们从技术、伦理、法律和社会等多个维度评估 MEAs 的影响,并指出关键研究挑战与未来有前景的方向。 * 持续更新的在线资源库:我们维护一个开源仓库,持续收集相关论文与资源,包括论文链接、代码库、基准测试与性能比较。
与现有综述的区别
尽管已有不少关于 MEAs 及其相关安全挑战的研究,但仍存在不足。通用的机器学习隐私研究 [47, 76, 123, 126, 172, 198] 主要讨论各种隐私保护技术,而未专门聚焦于 MEAs 及其独特挑战。部分领域特定研究 [45, 68, 92, 209, 210, 236, 255, 262] 探索了图数据、文本数据分析等场景下的隐私与安全问题,但未能全面揭示模型提取在不同架构与场景下的广泛影响。另一些工作 [131, 146, 164, 255, 261] 在特定计算环境下分析 MEAs,但往往是孤立的,未能充分考虑不同计算范式之间的交互。近期的综述 [60, 151] 主要侧重于攻击方法的罗列,而缺乏深入的比较分析、有效性评估及整合攻击与防御的系统框架。相比之下,本文提供了首个统一且全面的框架,系统解决这些不足,明确识别 MEAs 的独特挑战,提出分类法并全面回顾了跨多种计算环境的攻防动态。 目标读者
本综述面向多个群体:研究人员可通过本文深入了解 MEAs 的最新进展、技术与挑战,从而推动学术探索与创新;AI 与机器学习工程师可获得在实际应用中防御模型提取的实用策略;政策制定者与法律从业者可借助本文制定相关法规与政策框架,以防范模型提取带来的潜在风险。 论文结构
第 2 节:介绍背景知识与基本概念; * 第 3 节:提出新的 MEAs 分类框架; * 第 4 节:深入探讨攻击技术; * 第 5 节:分析防御策略; * 第 6 节:讨论不同计算环境下的 MEAs; * 第 7 节:探讨攻防的评价指标; * 第 8 节:分析实际应用场景中的攻防案例; * 第 9 节:总结未来研究方向与挑战,包括法律与伦理议题; * 第 10 节:结论。