本报告由支持开发测试评估与分析 (DTE&A) 的美国MITRE 团队编写。MITRE 团队与美国国防部各组织(DOT&E、CDAO、DTE&E)的其他 AIES 主题专家 (SME)、学术合作伙伴(包括弗吉尼亚理工学院和州立大学、佐治亚理工学院研究所、卡内基梅隆大学和约翰霍普金斯大学应用物理实验室)以及其他联邦资助研发中心运营商(航空航天公司、国防分析研究所)和科学测试与分析技术卓越中心进行了广泛的审查。

图. 整个 SELC 在进行 AIES 测试和评估时的考虑因素

本报告提出了建议方案,以便为 AIES 的测试和评估(T&E)提供最佳信息。通过遵循本报告中提出的建议,我们预计 AIES 更有可能按时交付、达到预算目标并有效执行任务以满足预期。我们主要关注机器学习(ML)形式的人工智能的系统工程生命周期(SELC),但许多建议也适用于其他形式的人工智能。(请参阅第 4.1 节,了解我们对包括 ML 在内的人工智能采用的分类方法)。

本报告探讨的三大主题包括 1.拓宽 T&E 连续体 2.预先确定 AIES 的数据需求 3.评估 SELC 以了解 AIES 的可信度

本文件主要面向参与 SDLC 早期阶段的测试工程师和人员,以便为 AIES 制定战略、计划和执行测试与评估活动。从本报告的组织结构中,计划/项目经理将认识到对 AIES 要求、采购需求和部署后维护的独特考虑。开发团队也能更好地了解对 AIES 的关键影响和所需的主要准备工作,从而共同实现 AIES 的成功测试与评估。

AIES 的系统工程流程与系统工程的标准最佳实践之间的差异是模糊的。在可能的情况下,我们尽量强调 AIES 所独有的最佳实践,但在某些情况下,AIES 的最佳实践也可以作为 SELC 交付的标准最佳实践。在整个报告中,特别是在需求阶段,我们强调人工智能是一种使能能力,而不是产品/目标,重要的是要认识到有时人工智能能力可能不是实现任务目标的最佳解决方案。

虽然本报告主要关注软件购置途径中的最佳实践,但大部分建议也可适用于其他购置途径,并不局限于一种类型。此外,本报告应被视为一个起点,可根据 AIES 的不同操作实施进行调整(例如,需要更多计算能力或存储空间的集中式系统,以及可能更加分散的其他 AIES)。虽然每种实施方式都可能有特定的 T&E 要求,但这些要求可在用例要求中加以说明。

  • 拓宽培训与教育的连续性

拓宽 AIES 的 T&E 连续性是 DTE&A 的一部分。现在,T&E 被视为一个连续的过程,而不是项目生命周期尾端的一个具有挑战性的阶段。当这种方法应用于 AIES 时,T&E 概念开始出现在系统生命周期的开始阶段,从而允许计划获取最有效评估 AIES 所需的信息。这还包括扩大技术和管理活动的范围,以纳入技术与评估的相关考虑因素,如模型培训/测试数据管理。学术界和商业界的专题专家都提倡 "向左转和向右转 "的模式,以有效实施和管理 AIES 的性能。所谓 "向右移动",指的是即使将 AIES 部署到运行中,也需要对其进行监测、迭代和更改。

  • 提前确定 AIES 的数据需求

在 AIES 项目生命周期的早期确定数据需求对于确保 AIES 项目的成功实施至关重要。缺乏整个 SELC 的数据战略是大多数 AIES 项目失败的主要原因。T&E 人员可以通过评估当前的数据实践是否对系统开发、模型性能和操作要求起到积极作用,从而避免 SELC 可能出现的不利结果。持续的 T&E 任务分配可进一步确保可观察的指标和数据要求与关键性能参数 (KPP) 保持一致。此类评估有助于识别错误或不合适的数据实践,并在敏捷框架内实现更大的灵活性。

  • 评估 SELC 以了解 AIES 的可信度

正在实施 AIES 的计划应采取关键步骤,确保从开始到投入使用,以及 AIES 的持续监测和维持都能成功执行。对设计、培训和集成 AIES 的流程进行评估,可为整个 AIES 的可信度提供依据。

总结

美国国防部(DoD)正在对人工智能(AI)研发(R&D)进行大量投资(147 亿美元),并通过各种项目获取人工智能。确保正确的流程执行可使这些投资得以实现,尤其是确保对预期的人工智能系统(AIES)进行有效评估的流程。SEPTAR(正确测试人工智能的系统工程流程)介绍了主动规划人工智能系统测试与评估(T&E)活动的好处和最佳实践。通过遵循这些最佳实践,AIES 更有可能按时交付,达到预算目标,并有效执行任务,满足任务预期。

主要针对三大主题:
1.拓宽 T&E 连续性
2.预先确定 AIES 的数据需求
3.评估系统工程生命周期 (SELC),为 AIES 的可信度提供依据

确保并了解系统工程生命周期早期用于构建 AIES 的流程,为后期测试和开发过程中的测试与评估提供信息。AIES 需要持续监测和分析,以确保在系统的整个生命周期,特别是在部署和维护期间,满足任务需求。

SEPTAR 分为 SELC 的五个阶段,并针对每个阶段提出了具体建议,以便进行测试与评估: 1.对 AIES 的要求
2.AIES 采购战略
3.AIES 开发
4.AIES测试
5.AIES部署/维持

SEPTAR 还介绍了具体的使用案例,以及如何利用 SEPTAR 最佳实践来改进 AIES 的测试和评估。

由于 SEPTAR 本身的性质,它是一份动态文件,不可能全面涵盖所有相关问题。本报告中包含的建议和最佳实践可作为国防部测试界的基础,使其能够更好地适应快速增长的 AIES 采用情况。

改进建议

本节对本报告中包含的技术与评估建议进行了高度概括。这些最佳实践是专门为实施 AIES 而开发的。这份清单并不全面,完整的报告将提供更深入的讨论,包括每项建议的理由。请参阅第 5 节和第 6 节,其中讨论了针对 SELC 各领域的具体建议。

2.1 对 AIES 的要求

  • 向用户和领域专家咨询系统设计见解
  • 探索原型和数据功能
  • 考虑硬件性能限制
  • 重点关注与任务相关的用例
  • 评估数据可用性

2.2 AIES 获取战略

  • 确定数据和模型权,确保可访问评估、数据和模型卡
  • 使用评估卡、模型卡和数据卡确定期望值
  • 就人工智能系统和模型的评估方法(如对抗测试)提供建议
  • 了解与人工智能相关的网络安全风险
  • 定义资源和角色,包括模型维护

2.3 AIES 开发

  • 在支持人工智能的系统内测试人工智能模型,并与 DOD T&E 共享数据
  • 实现基础设施集成(从 MLOps 到 DevSecOps)
  • 准备有适当标签的数据,并确保业务代表性,将培训和测试数据分开
  • 实施迭代模型训练和测试

2.4 测试 AIES

  • 在 DT&E 期间审查人工智能模型的训练/测试数据组成
  • 测试集成到人工智能系统中的人工智能模型
  • 收集用户反馈以建立信任
  • 评估作为网络安全一部分的 MLOps 管道和实践
  • 确保验证安全性能

2.5 部署/维持 AIES

  • 评估并获得 ATO,包括系统中人工智能组件的独特考虑因素
  • 确保对用户进行适当培训
  • 收集日志和培训数据
  • 实施模型漂移检测并建立性能防护栏
成为VIP会员查看完整内容
80

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《敏捷团队测试平台(AT2B)》美空军87页报告
专知会员服务
44+阅读 · 2023年10月6日
《数字孪生评估、敏捷验证过程和虚拟化技术》美国防部
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Arxiv
66+阅读 · 2023年3月26日
VIP会员
相关VIP内容
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
36+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员