美国国防部(DoD)制定本指南手册,旨在支持人工智能(AI)系统及人工智能赋能系统(AIES)的开发测试与评估(DT&E)。其目标是通过技术可靠、基于共识的指导原则,应对人工智能技术带来的独特挑战。本手册为政府测试团队规划与执行人工智能赋能组件、应用及系统的开发测试与评估提供支持,助力在AIES开发与部署阶段向决策者及利益相关方提供关键洞察。鉴于人工智能技术快速演进,本指南反映了测试与评估(T&E)领域的当前共识,未来将随技术方法进步持续更新。
人工智能系统的测试面临关键挑战,传统全面测试方法因以下因素难以适用于多数人工智能组件:
此外,被测系统的配置变更通常快速迭代,这为测试与评估(T&E)过程增添了另一层复杂性。上述因素使得测试团队、评估人员与决策者难以通过具体测试结果推演通用结论,阻碍对人工智能组件及人工智能赋能系统(AIES)开展必要的技术评估,进而影响工程决策或采办决策。
为应对这些挑战,本指南手册强调了以下新方法:
本指南手册最终旨在为美国国防部人工智能项目提供资源支持,强化对人工智能技术的有效测试与评估能力,确保其成功整合并服务于国防使命。
本指南手册面向政府测试团队,旨在指导其规划与执行人工智能赋能系统(AIES)或系统中人工智能组件的开发测试与评估(DT&E),为采办项目前期及项目执行中的DT&E活动提供聚焦性指南。
人工智能的引入对开发测试与评估(DT&E)带来重大变革。机器学习(ML)方法与负责任人工智能(RAI)要求改变了系统及软件生命周期的传统模式,包括性能特征化与风险管理。测试与评估(T&E)需贯穿AIES开发全周期,以确保评估有效性与可信度。这种全周期渗透通常要求DT&E深度参与科技研发(S&T)、原型开发与实验验证。 本指南初始版本阐释人工智能如何重塑DT&E,从DT&E活动与输出以及人工智能驱动变革因素的双重视角展开分析。手册涵盖机器学习数据集测试评估方法,包括数据集本身、基于其训练的模型及集成系统的评估。同时简要探讨T&E团队与其他实践社群加强互动可能带来的全局性效益——此类扩展性互动对DT&E团队早期介入系统作战概念(CONEMP)定义至关重要。
首版指南手册的章节框架包括:
本指南后续版本将深化当前议题,包括生成式AI的测试评估挑战及强化学习(RL)的完整论述(以应对国防部新兴用例需求)。随着国防部及其下属机构在风险管理、安全工程及数据模型验证、确认与认证(VV&A)领域的政策标准完善,未来版本将详细阐释T&E在相关领域的作用。
最新