《综述：测试与评估中应用的人工智能工具》

新兴技术（如人工智能 (AI)、自动驾驶）和联合全域指挥与控制 (JADC2) 测试与评估 (T&E) 等操作概念将要求系统进行持续测试并产生更多数据。在整个测试周期中使用人工智能将使测试人员能够处理数据，并以更快的速度和规模做出更客观的决策。由于被测系统非常复杂，因此并不存在放之四海而皆准的软件应用程序。相反，如果以实用的方式使用各种软件包，可以提高训练有素的测试与评估专业人员的能力，以应对新兴技术的挑战。本文列出了一份人工智能软件工具清单，并总结了它们在测试与评估中的潜在应用功能。向测试界提供这份清单，并在可能的情况下利用 DoDTechipedia 等合作网站，将提高人们对可用工具及其功能的认识，鼓励交流与合作，并有助于当前和未来工具的使用。

测试与评估 (T&E)中人工智能评估框架

人工智能工具的形式多种多样，并采用不同的方法来满足用户的需求。当 T&E 专业人员在实践中采用人工智能时，他们可以参考这份资源清单，为他们的软件实施决策提供信息，以实现特定目标。本研究建立了一个包含七种工具功能的框架：计划、存储、运输、准备、可视化、分析和监控。这七种功能的定义如下。

规划（PL）：计划包括了解需求、筛选特征、设计因素、记录条件、确定限制因素、创建测试矩阵以及确定假设检验的置信度和功率。
存储（S）：可访问、可靠且可扩展的大数据安全存储。解决方案支持跨云环境和边缘计算快速访问数据。工作负载自动化配置文件管理、访问控制以及路由和平衡工作负载。优化昂贵的硬件，如高性能计算（HPC）集群和图形处理器（GPU）加速器，为数据处理做好准备。
传输 (T)：将数据从一个位置传输到另一个位置。特殊用例包括数据屏蔽和加密安全数据。出于可重现性的目的，对原始数据的任何操作都必须记录在案。处理元数据的决策对保持数据质量非常重要，包括对无法加载到随机存取存储器（RAM）的过大数据进行处理、压缩、稀疏性、分块和散列等。
准备 (PR)：将数据转换为干净的格式，以便算法能成功使用其中包含的信息。这包括处理缺失值、特征工程、管理异常值，以及估算、转换、归一化和标准化过程。
可视化 (V)：以图形表示任何格式的数据。通过可视化输出探索数据有助于技术人员和非技术人员对数据有一个总体了解。图形和图表有助于评估数据的一致性。此外，通过可视化工具评估模型性能有助于向股东传达结果。
分析 (A)：选择建模技术来实现特定目标。这包括建立模型、调整参数、模型再训练、从模型中获得洞察力以及解释结果。
监控 (M)：跟踪模型版本历史性能，以便进行验证、评估和审计。对持续测试/持续实验框架进行管理，并自动提醒用户注意任何模型衰变。可重现的模型和通过管道创建标准使用户能够设计、部署和管理一致的工作流程。提供可扩展的运行时资源增加了管理和部署网络应用程序的能力。