这份国家标准与技术研究所(NIST)的可信赖与负责任人工智能报告,开发了一套对抗性机器学习(AML)领域概念的分类体系,并定义了相关术语。这个分类体系基于对AML文献的综述建立,按照概念层次排列,包括关键的机器学习方法类型、攻击的生命周期阶段、攻击者的目标和目的、以及攻击者对学习过程的能力和知识。报告还提供了相应的方法,以减轻和管理攻击的后果,并指出了在人工智能系统生命周期中需要考虑的相关开放性挑战。报告中使用的术语与AML文献保持一致,并由一个词汇表补充,该词汇表定义了与人工智能系统安全性相关的关键术语,旨在帮助非专家读者理解。综合来看,这个分类体系和术语旨在为评估和管理人工智能系统的安全性的其他标准和未来的实践指南提供信息,通过建立一个共同的语言和对迅速发展的AML领域的理解。
这份国家标准与技术研究所(NIST)的可信赖与负责任人工智能报告旨在向发展对抗性机器学习(AML)的分类体系和术语迈出一步,这反过来可能有助于保护人工智能(AI)应用免受AI系统的敌对操纵。大体上,AI系统有两类:预测型和生成型。AI系统的组成部分至少包括数据、模型以及训练、测试和部署机器学习(ML)模型的过程和使用它们所需的基础设施。当适应特定领域和用例时,生成型AI系统也可能与企业文件和数据库相连。ML的数据驱动方法在ML操作的不同阶段引入了额外的安全和隐私挑战,除了大多数运营系统面临的传统安全和隐私威胁。这些安全和隐私挑战包括操纵训练数据的敌对潜能、利用模型漏洞对AI系统性能产生负面影响的敌对开发、甚至通过与模型的恶意操纵、修改或仅仅交互来窃取有关数据中代表的人、模型本身或企业专有数据的敏感信息。在现实世界条件下,这类攻击已被证实,其复杂性和潜在影响稳步增长。AML关注研究攻击者的能力和目标,以及设计利用ML在开发、训练和部署阶段的漏洞的攻击方法。AML还关注设计能够承受这些安全和隐私挑战的ML算法。当恶意发起攻击时,ML的鲁棒性指的是旨在管理此类攻击后果的缓解措施。
这份报告从国家标准与技术研究所(NIST)的人工智能风险管理框架[226]中吸纳了ML系统的安全性、弹性和鲁棒性的概念。安全性、弹性和鲁棒性是通过风险来衡量的,风险是衡量一个实体(例如,系统)受潜在情况或事件(例如,攻击)威胁的程度以及如果发生此类事件将产生的严重性。然而,这份报告并没有就风险容忍度(组织或社会可接受的风险水平)提出建议,因为这高度依赖于上下文和应用/用例的具体情况。这种风险的一般概念为评估和管理人工智能系统组件的安全性、弹性和鲁棒性提供了一个有用的方法。量化这些可能性超出了本文档的范围。相应地,AML的分类体系是基于以下五个AML风险评估维度定义的:(i)人工智能系统类型(预测型或生成型),(ii)学习方法和攻击发起时ML生命周期过程的阶段,(iii)攻击者的目标和目的,(iv)攻击者的能力,(v)攻击者对学习过程及其以外的知识。
针对ML的有效攻击范围广泛,迅速发展,涵盖了ML生命周期的所有阶段——从设计和实施到训练、测试,最终到现实世界中的部署。这些攻击的性质和力量各不相同,它们不仅可以利用ML模型的漏洞,还可以利用部署AI系统的基础设施的弱点。虽然AI系统组件也可能受到各种非故意因素的负面影响,比如设计和实施缺陷、数据或算法偏见,但这些因素并非故意攻击。即使这些因素可能被对手利用,它们也不在AML文献或本报告的范围内。
这份文档定义了一套攻击的分类体系,并在AML领域引入了术语。这个分类体系基于对AML文献的综述建立,按照概念层次排列,包括关键的ML方法类型和攻击的生命周期阶段、攻击者的目标和目的、以及攻击者对学习过程的能力和知识。报告还提供了相应的方法来减轻和管理攻击的后果,并指出了在人工智能系统的生命周期中需要考虑的相关开放性挑战。报告中使用的术语与AML文献保持一致,并由一个词汇表补充,该词汇表定义了与人工智能系统安全性相关的关键术语,旨在帮助非专家读者理解。综合来看,这个分类体系和术语旨在为评估和管理人工智能系统的安全性的其他标准和未来的实践指南提供信息,通过建立一个共同的语言和对迅速发展的AML领域的理解。与分类体系一样,术语和定义并非旨在全面,而是为了帮助理解在AML文献中出现的关键概念。