中文版《综述：人工智能赋能工具在测试与评估中的应用》

新兴技术（如人工智能 (AI)、自动驾驶）和联合全域指挥与控制 (JADC2) 测试与评估 (T&E) 等作战概念将要求系统进行持续测试并产生更多数据。在整个测试周期中使用人工智能将使测试人员能够处理数据，并以更快的速度和规模做出更客观的决策。由于被测系统非常复杂，因此并不存在放之四海而皆准的软件应用程序。相反，如果以实用的方式使用各种软件包，可以提高训练有素的测试与评估专业人员的能力，以应对新兴技术的挑战。本文列出了一份人工智能软件工具清单，并总结了它们在测试与评估中的潜在应用功能。向测试界提供这份清单，并在可能的情况下利用 DoDTechipedia 等合作网站，将提高人们对可用工具及其功能的认识，鼓励交流与合作，并有助于当前和未来工具的使用。

引言

由于测试与评估（T&E）中的数据量迅速增加，需要使用人工智能（AI）工具来快速、大规模地有效利用数据。人工智能工具的开发得益于对人类编码知识的程序化编码和机器学习技术的引入。测试与评估专业人员可能会发现，他们已经在实践中使用了人工智能，因为许多人工智能应用程序可以通过规划、可视化和分析等多种方式为测试人员提供支持。然而，为了跟上产生更多数据的技术发展步伐，用户需要在整个测试与评估过程中进一步融入人工智能。在本文中，我们将从人工智能可以帮助 T&E 专业人员开展工作的七个功能领域，对人工智能工具在 T&E 中的应用进行回顾。这七个领域包括规划、存储、运输、准备、可视化、分析和监控。这项工作的主要贡献在于提供了一个框架和一份人工智能资源清单，用于分析人工智能在 T&E 中的作用。

本报告的组织结构如下。背景介绍了人工智能定义背后的复杂历史，并确定了我们讨论的依据。接下来，我们介绍了查找和评估人工智能资源的方法。最后，介绍并总结了主要发现。

背景

由于我们对智能的定义和衡量标准各不相同，因此对人工智能的定义没有达成普遍一致也就不足为奇了。对人工智能定义的尝试可以追溯到 20 世纪 50 年代的阿兰-图灵和 "图灵测试"。1956 年，约翰-麦卡锡在达特茅斯人工智能夏季研究项目中创造了 "人工智能 "一词。人工智能在流行文化中的想象力和期望角色进一步导致了人工智能定义的模糊。

联合人工智能中心（JAIC）前战略与交流主管格雷戈里-艾伦（Gregory Allen）解释说，大多数人工智能分为两个分支：人类编纂知识和机器学习（ML）。根据 Allen 先生的说法，目前运行的大多数人工智能都使用人工编纂的知识。在这种人工智能方法中，主题专家将他们的知识编成一长串可被计算机理解和执行的编程规则。报税软件、飞机自动驾驶仪、导弹制导系统和电磁信号处理系统都是基于人类编纂知识的人工智能的例子。

在过去十年中，人工智能的大部分焦点都集中在 ML 领域。人工智能的这一子领域涉及设计算法和统计模型，以分析数据中的潜在模式并从中得出推论。ML 使人工智能能够适应原始开发者未曾预料到的新情况，检测不同数据集和大数据中的模式，根据识别到的模式创建新行为，并根据这些行为的成败做出决策。附录 A 包含各种类型 ML 的进一步定义。

方法论

这项研究建立了一个人工智能功能评估工具框架，可以帮助读者了解特定工具的目标。我们对现有工具的审查包括产品文档、互联网搜索和人工收集。

T&E中的人工智能评估框架

人工智能工具的形式多种多样，并采用不同的方法来满足用户需求。当运输和评价专业人员将人工智能应用到实践中时，他们可以参考这份资源清单，为他们的软件实施决策提供信息，以实现特定目标。本研究建立了一个包含七种工具功能的框架：计划、存储、传输、准备、可视化、分析和监控。这七种功能的定义如下。

计划（PL）：计划包括了解需求、筛选特征、设计因素、记录条件、确定限制因素、创建测试矩阵以及确定假设检验的置信度和功率。
存储（S）：可访问、可靠且可扩展的大数据安全存储。解决方案支持跨云环境和边缘计算快速访问数据。工作负载自动化配置文件管理、访问控制以及路由和平衡工作负载。优化昂贵的硬件，如高性能计算（HPC）集群和图形处理器（GPU）加速器，为数据处理做好准备。
传输 (T)：将数据从一个位置传输到另一个位置。特殊用例包括数据屏蔽和加密安全数据。出于可重现性的目的，对原始数据的任何操作都必须记录在案。处理元数据的决策对保持数据质量非常重要，包括对无法加载到随机存取存储器（RAM）的过大数据进行处理、压缩、稀疏性、分块和散列等。
准备 (PR)：将数据转换为干净的格式，以便算法能成功使用其中包含的信息。这包括处理缺失值、特征工程、管理异常值，以及估算、转换、归一化和标准化过程。
可视化 (V)：以图形表示任何格式的数据。通过可视化输出探索数据有助于技术人员和非技术人员对数据有一个总体了解。图形和图表有助于评估数据的一致性。此外，通过可视化工具评估模型性能有助于向股东传达结果。
分析 (A)：选择建模技术来实现特定目标。这包括建立模型、调整参数、模型再训练、从模型中获得洞察力以及解释结果。
监控 (M)：跟踪模型版本历史性能，以便进行验证、评估和审计。对持续测试/持续实验框架进行管理，并自动提醒用户注意任何模型衰变。可重现的模型和通过管道创建标准使用户能够设计、部署和管理一致的工作流程。提供可扩展的运行时资源增加了管理和部署网络应用程序的能力。

识别工具和标注功能的方法

我们利用产品文档、网络资源和人工评估中的信息，针对七个功能领域对每种工具进行了评估。下文将概述我们查阅了哪些产品文档，以及如何进行网络搜索和人工评估。

产品文档

软件文档为部署和使用产品的用户群提供描述产品的信息。文档通常可在线获取，而且在许多情况下是一种活文档，会在产品的整个生命周期中不断更新。软件文档主要有两种类型：内部或系统文档和外部文档，后者包括最终用户文档和系统管理员文档。最终用户文档是本研究的主要参考资料。

最终用户文档的重点是促进对产品、界面和功能的理解。不同产品的最终用户文档的质量、详尽程度和易懂程度各不相同。通常情况下，最终用户文档包括用户手册、操作手册和通用教程。

互联网搜索

我们进行了网络搜索，以获取有关商业授权工具和文档未公开的工具的知识。通过使用谷歌搜索引擎，我们在搜索查询中输入了工具名称，并查看了排名前 25 位的结果。

资料收集

我们收集了一份在 "自主系统测试与评估进展"（ATEAS）22 财年研讨会上介绍的工具清单。美国国防部负责研究与工程的副部长办公室（OUSD(R&E)）和发展测试、评估与评价主任（DTE&A）赞助科学测试与评估技术卓越中心（STAT COE）主办了 ATEAS 22 财年研讨会。ATEAS 研讨会将自主性、机器人、计算机科学等领域的权威和专家聚集在一起，以加快自主性测试与评估方法的进展。自主领域虽然独立于人工智能领域，但两者之间存在有意义的重叠。在本次研讨会上，多家机构展示了处于不同开发阶段的工具。我们从简报和录音中手动收集了有关这些工具的信息。

下一节将提供一份人工智能工具、说明和功能的综合清单。

结果

以下列出的人工智能工具、说明和功能可帮助读者比较现有的人工智能工具，这些工具可用于计划（PL）、存储（S）、传输（T）、准备（PR）、可视化（V）、分析（A）和监测（M）。

T&E的AI工具列表

表1 包含描述和功能的AI工具列表

*局限性：这里提供的清单并不全面。不过，它确实提供了对目前存在的工具的调查。随着人工智能领域的不断发展和创新，预计还会有新的工具发布。本研究中缺少人工智能软件测试工具。虽然人们已经意识到它们的存在，但这一领域超出了本文作者的专业范围。我们需要进一步研究人工智能软件测试工具。

结论与建议

未来，测试中产生的数据量将大幅增加。为了高效处理数据并做出客观决策，测试人员将需要使用人工智能工具。本研究确定了人工智能可协助测试人员的七个功能领域，并为读者提供了一份人工智能工具、说明和功能列表。然而，这份清单并不全面，而且人工智能领域也在不断开发新的工具。

没有一种工具能完全覆盖所有用例。每个软件包都有自己的优势和劣势，但并非所有劣势都是众所周知或显而易见的。为了加强本产品并利用社区的集体知识，应在 DoDTechipedia 等合作网站上提供这项工作。在网站上发布后，用户可以添加他们使用过的工具，并就评估标准提供意见。随着新兴技术开始出现在采购管道中，获取集体知识是跟上不断变化的测试环境的一种方法。

成为VIP会员查看完整内容