美海军《表征军事领域的新奇性》开发和评估对新事物具有鲁棒性的智能体；DARPA人工智能科学和开放世界新事物学习（SAIL-ON）项目

利用AI智能体的一个关键因素是它们对新事物的稳健性。AI智能体包括经过设计或训练的模型。设计型模型包括环境中那些被工程师认为是重要的知识。学习型模型通过训练数据建立的联系来形成环境各个方面的嵌入。然而，在操作过程中，丰富的环境很可能会出现训练集中没有的挑战，没有在工程模型中考虑到。更糟糕的是，对抗性环境会被对手改变。美国国防部高级研究计划局（DARPA）的一项计划旨在发展必要的科学，以开发和评估对新事物具有鲁棒性的智能体。人工智能在关键任务环境中发挥设想的作用之前，将需要这种能力。

作为DARPA人工智能科学和开放世界新事物学习（SAIL-ON）的一部分，我们正在将可能的军事领域新事物类型映射到一个独立于领域的本体上，作为新事物理论的一部分来开发。从数学和本体论的角度来描述可能的新颖性空间，将使我们能够在相关的军事环境中对来自DARPA SAIL-ON项目的智能体设计进行实验。利用在实验室实验中使用的相同技术，我们将能够测量智能体检测、描述和适应新事物的能力。

动机

军队不断遇到新奇的概念。特别是在面对对手时，他们被迫解决这些新奇的问题，而决策的时间往往很少。例如，1999年，北约部队在科索沃战争期间对塞尔维亚进行了一次空中轰炸，称为 "盟军行动"。这被证明是北约盟国的一次学习经历，因为在整个行动中遇到了多个新奇事件。首先，塞尔维亚军队比预期的更加坚定，装备也更好。第二，塞尔维亚人严重依赖地对空导弹（SAM）和高射炮（AAA），这就要求盟军飞得比预期的要高，使目标定位具有挑战性。第三，塞尔维亚人意外地使用了带有雷达发射控制的导弹。所有这些新事物都需要盟军在当下有效地解决，同时还要克服其他困难，如不规则的天气和地形(Lambeth, 2001)。能够在军事领域内定义和描述新事物是DARPA SAIL-ON项目的一个目标。

新奇性对AI智能体的影响

目前的人工智能（AI）系统擅长于范围狭窄的封闭世界的任务，如玩棋盘游戏（Silver，2017）和加强图像分类。然而，众所周知，这些人工智能系统在面对分散的输入时很困难（Langely，2020），当它们在不受控制和不可预见的条件下进行测试时，它们的性能会严重下降（Chao，2020），而这正是军事作战人员普遍面临的。对于人工智能系统和人类在军事领域的合作，人工智能系统需要能够检测、描述和适应作战人员操作的开放世界环境中的新情况。

为了进一步说明这一点，我们将提到一个名为 "零号方案 "的模拟战术场景，其中一架蓝色部队的战斗机（由AI智能体控制），根据各种传感器数据帮助其做出决定，任务是摧毁红方敌人的弹药储存地，同时躲避附近两支红方敌军的地对空导弹（SAM）发射器。在创新前的情况下，萨母导弹射程保持不变，AI智能体理可以成功地执行任务，而不会让战斗机被击落。然而，当考虑到技术的快速发展时，假设萨母的导弹射程永远保持不变是一个明显的疏忽。在创新后的开放世界场景中，萨姆导弹的射程增加，超过了蓝方战斗机之前所习惯的范围，导致智能体在执行任务前被击落。

零号方案场景中的AI智能体没有重新规划路线以避免被击落，而是根本没有意识到发生了新奇的情况，它继续派出更多的资产去执行任务，结果却被摧毁。在一个理想的场景中，AI智能体被创建为意识到新奇事物的可能性，一个更强大的智能体反而可以学习检测、描述和适应现实世界的新奇事物。

对新奇性的数学建模

为了创造丰富的新奇事物，模拟真实世界的不确定性和混乱性，我们引入了统计分布。并非每一个新事物都会有一个适当的统计分布。例如，在零号方案中，如果其中一个萨母被改为诱饵，这将是一个静态的新事物，不包括任何变化。另一方面，我们可以通过为诱饵萨姆的运作方式增加更多的参数来增加这种新颖性的复杂性。这只是想说，统计分布对于增加丰富性和帮助模拟真实世界是很有用的，但对于引入新奇性却不是必须的。

新奇性往往涉及连续变量的参数变化。例如，在零号方案中，导弹射程、导弹速度、红/蓝方生存能力和可用弹头数量都是定量变量。

我们可以用统计分布来模拟这些新变量。对于连续变量，我们要使用正态分布或均匀分布。当然，均匀分布的好处是有严格的最小和最大参数值，以避免重叠或潜在的不可能值。具体到SAIL-ON，每个新奇的执行者通常会将新奇性进一步细分为简单、中等和困难。因此，同一个新奇事物会有三个不同的版本。

让我们用定义为R的导弹射程作为一个例子。我们将使用一个具有正态分布的模型，其平均值为μ，标准差为σ。

我们可以创建三个分布，分别为简单（RE）、中等（RM）和困难（RH），定义为：

在图1中作了图表。我们可以在这些分布中的每一个范围内对新颖的导弹进行采样，这取决于难度水平。此外，三个难度级别将进一步帮助我们测试智能体对同一新奇事物的不同变化进行定性、检测和适应的能力。此外，智能体对三种难度级别的新奇事物的反应方法可能有很大的不同，并提供关于智能体如何处理不同情况的进一步信息。

图1:导弹射程的新奇性分布

SAIL-ON执行者有各种方法来定义新颖性。有些人可能会使用上述的分布，通常使用均匀分布或离散均匀分布，这有助于避免易、中、难三个级别之间的重叠。另一些人可能对一些新奇的事物使用静态数字。以导弹射程为例，有些人可能会简单地选择𝑅𝐸=50𝑘𝑚，𝑅𝑀=55𝑘，以及𝑅=60𝑘𝑚。目前，我们正在使用静态数字开始我们的测试。接下来，我们计划向统计学方法发展，以建立一个更丰富、更真实的开放世界中的新奇事物模型。请注意，这种统计分布方法将需要大量的样本集，以收集足够的数据来创建关于智能体性能的准确指标。

导弹射程的例子是针对一个特定的连续、定量的变量。然而，每个新事物都会有自己的分布分配给它们。有时，正态分布或均匀分布不会是最适合的。对于二进制变量，如存活率，我们可以使用伯努利分布。对于罕见事件，如传感器故障，我们可以使用泊松分布。