美国国防部(DoD)制定本指南手册,旨在支持人工智能(AI)系统及人工智能赋能系统(AIES)的开发测试与评估(DT&E)。其目标是通过技术可靠、基于共识的指导原则,应对人工智能技术带来的独特挑战。本手册为政府测试团队规划与执行人工智能赋能组件、应用及系统的开发测试与评估提供支持,助力在AIES开发与部署阶段向决策者及利益相关方提供关键洞察。鉴于人工智能技术快速演进,本指南反映了测试与评估(T&E)领域的当前共识,未来将随技术方法进步持续更新。

人工智能系统的测试面临关键挑战,传统全面测试方法因以下因素难以适用于多数人工智能组件:

  • 模型输出在实践中的固有不可预测性;
  • 模型对输入细微变化的敏感性;
  • 某些人工智能模型的复杂性和不透明性;
  • 参数空间的高维度性;
  • 模型输出对训练数据集的复杂依赖性。

此外,被测系统的配置变更通常快速迭代,这为测试与评估(T&E)过程增添了另一层复杂性。上述因素使得测试团队、评估人员与决策者难以通过具体测试结果推演通用结论,阻碍对人工智能组件及人工智能赋能系统(AIES)开展必要的技术评估,进而影响工程决策或采办决策。

为应对这些挑战,本指南手册强调了以下新方法:

  • 早期参与开发:在AIES开发初期引入T&E团队,促使技术特征与任务需求对齐。鉴于机器学习模型开发的迭代性,早期介入至关重要——从开发之初持续优化需伴随动态评估,确保部署系统符合作战目标。
  • 形式化方法增强:形式化方法通过数学严谨的技术手段补充传统物理测试,实现人工智能系统更精确的验证。这类方法有助于应对人工智能技术固有的复杂性与不确定性。
  • 确保可测试性需求:DT&E团队需与需求方加强协作,不仅确保系统需求原则上可测,还需构建可行的测试方案以支撑必要评估。AIES测试的复杂性进一步扩展了该职责范围。
  • 指导系统与作战概念(CONEMP)开发:AIES开发的迭代性及其与作战概念的深度耦合,要求DT&E的度量活动需协同指导系统与作战概念开发方。在人类-系统融合、校准信任、涌现行为、人机协同等领域的测试,以及遵循负责任的人工智能政策,对避免高成本返工、确保系统设计与作战需求一致至关重要。

本指南手册最终旨在为美国国防部人工智能项目提供资源支持,强化对人工智能技术的有效测试与评估能力,确保其成功整合并服务于国防使命。

本指南手册面向政府测试团队,旨在指导其规划与执行人工智能赋能系统(AIES)或系统中人工智能组件的开发测试与评估(DT&E),为采办项目前期及项目执行中的DT&E活动提供聚焦性指南。

人工智能的引入对开发测试与评估(DT&E)带来重大变革。机器学习(ML)方法与负责任人工智能(RAI)要求改变了系统及软件生命周期的传统模式,包括性能特征化与风险管理。测试与评估(T&E)需贯穿AIES开发全周期,以确保评估有效性与可信度。这种全周期渗透通常要求DT&E深度参与科技研发(S&T)、原型开发与实验验证。 本指南初始版本阐释人工智能如何重塑DT&E,从DT&E活动与输出以及人工智能驱动变革因素的双重视角展开分析。手册涵盖机器学习数据集测试评估方法,包括数据集本身、基于其训练的模型及集成系统的评估。同时简要探讨T&E团队与其他实践社群加强互动可能带来的全局性效益——此类扩展性互动对DT&E团队早期介入系统作战概念(CONEMP)定义至关重要。

首版指南手册的章节框架包括:

  • 第1章引言,阐述手册目标与范围;
  • 第2章AIES的DT&E概述,分析人工智能系统最新进展对性能评估、风险评估及系统工程支持的DT&E职责影响,概要性介绍人工智能(尤其是机器学习)引发的核心议题;
  • 第3章AI驱动的T&E实践变革,提出应对机器学习新型挑战的专项T&E方法论;
  • 第4章T&E社群的扩展性互动,探讨T&E专业领域之外的组织与跨学科协作机制。

本指南后续版本将深化当前议题,包括生成式AI的测试评估挑战及强化学习(RL)的完整论述(以应对国防部新兴用例需求)。随着国防部及其下属机构在风险管理、安全工程及数据模型验证、确认与认证(VV&A)领域的政策标准完善,未来版本将详细阐释T&E在相关领域的作用。

最新

成为VIP会员查看完整内容
3

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《人机协作测试与评估指标表征》117页
专知会员服务
52+阅读 · 2024年2月3日
《战略性赛博空间战入门》美陆军最新221页
专知会员服务
71+阅读 · 2024年1月15日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
166+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
452+阅读 · 2023年3月31日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
45+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员