目前的测试和评估(T&E)方法包括以黑盒方式处理系统,即向系统提供样本输入,观察相应的输出,并将其与期望值进行比较。虽然这种方法对传统的静态系统很有效,但由于智能体的动态环境、单个智能体的适应性学习行为、智能体和操作环境之间的复杂互动、测试黑盒机器学习(ML)模型的困难,以及快速发展的ML模型和人工智能算法,自主智能系统的测试和评估提出了艰巨的挑战[1, 2]。
这项研究的目的是开发设计测试和评估(T&E)计划以及为基于学习的系统获取数据/模型的方法。主要目标是了解增加政府对系统设计中使用的模型和学习代智能体(人工智能算法)的访问可能会减少测试的需要和费用,并增加对结果的信心。在这个孵化器项目中研究的主要假设是,如果我们能够获得模型本身(数学或软件),那么测试人工智能/ML模型达到可接受的可靠程度所需的样本数量可以减少,如果我们也能获得用于训练模型的算法和数据,则可以进一步减少,如果我们也能获得系统模型和数字工程过程的其他工件,则可以进一步减少。因此,如果T&E计划是基于获得人工智能/ML系统的技术数据/算法的成本和测试这些系统的成本之间的最佳平衡,那么采购的成本可以大大降低。
这个项目建立了理论和方法,以探索T&E要求如何能够和应该作为测试团队对人工智能系统的技术规格知识的功能而改变。项目开发了基于系统的理论,通过系统形态的概念来捕捉系统的变化和它所处的状态空间。洋葱模型描述了不同层次的系统知识和定义系统抽象的背景。该项目通过两个试点场景进行实验,以展示多个测试阶段如何促进对人工智能系统的评估。最后,我们提出了贝叶斯的分析框架,用于结合多个测试阶段的信息。这个分析框架也反映了不断变化的系统配置和背景。总之,这项工作基本上构成了在未来阶段调查现实系统的测试数据收集的成本效益的基石。
进行人工智能系统研究的一个主要挑战是,在T&E研究中需要物理实现。未来的工作可以利用Silverfish测试平台,该平台是在SERC先前的任务下开发的,并将测试平台扩展到物理实现。除了MBSE表示的物理实现,还可以在Silverfish测试平台上直接执行一个T&E程序。未来的工作还应该包括有目的地改变系统知识(基于洋葱模型),系统的复杂性和它的操作环境(形态的数量),并确定作为这些变量的函数的最小充分测试。