《在开放世界的新奇场景中测试人工智能学习（TALONS）》美国国防部高级研究计划局（DARPA）2023最新 312页报告

该项目是为了支持美国国防部高级研究计划局（DARPA）的 "开放世界新奇事物的人工智能与学习科学"（SAIL-ON）计划。在第二阶段基期工作中，我们推进了第一阶段 TALONS 框架的理论和实施，并收集了智能体在新奇事物生成器生成的新奇事物上的基线性能的初步实证结果。在第二阶段的选择阶段，我们将基础阶段的工作扩展到更广泛的新奇事物生成和实施形式。

这项工作的主要成果包括：完成了新奇事物生成器的开发；对来自 3 个不同 SAIL-ON TA1 团队的新奇事物进行了性能分析；开发了自动且可最大程度减少人为偏差的新奇事物生成与实施流程；将我们的新奇事物生成流程应用于 Monopoly、Vizdoom 和 Blocksworld 领域，从而证明我们的新奇事物生成器与领域无关；以及为 SAIL-ON 计划提供支持。下面的项目总结和后续报告将更详细地介绍这些成就。

项目总结

目前最先进的人工智能可以在已知已知甚至未知的情况下稳健运行。然而，人工智能仍无法可靠地检测、描述和适应开放世界中的新奇事物。随着研究界不断努力实现先进的自主性，我们需要有科学依据的方法来评估人工智能体在开放世界环境中的表现。

PacMar Technologies（PMT）和 Parallax 高级研究公司开发了一套独立于领域的理论、原则性技术和软件工具，用于生成、描述和评估新颖性。这些理论和技术涵盖了与领域无关的新颖性。在合同基期内，我们开发了一个测试平台，用于评估智能体在自动驾驶汽车领域对新奇事物的反应性能，我们还在南加州大学 SAIL-ON 团队提供的大富翁领域中实施了由我们的软件工具自动生成的新奇事物。

我们的新奇事物生成器方法使用原则性技术自动生成新奇场景。这些场景被加载到模拟环境中，与给定的第三方人工智能体对接，以收集该智能体的性能数据。然后评估智能体在各种不同情况下处理各类新奇事物的能力。

我们将新奇定义为环境中的变化。简而言之，变化可以是过渡函数的变化，也可以是状态空间的变化。我们的方法有能力在过渡函数（包括行动和事件）、状态空间定义和观察函数中生成新颖性。精确生成新颖性的计算方法可分为两种类型的转换，其方式与创造性系统框架（Wiggins，2006 年）一致。我们方法的关键在于从八个维度对新颖性进行表征，从而支持将情景生成的重点放在可能挑战智能体鲁棒性的情况上。

我们的方法目标如下
1.为新奇性的特征描述奠定科学基础。 2.开发生成可用于评估智能体的新情景的技术。 3.确定这些技术的可行性及其在各领域的适用性。

本报告旨在清晰地描述我们的方法，包括新颖性生成、模拟和评估的方法。将我们的方法应用于 CARLA 的自动驾驶汽车领域、Monopoly、VizDoom 和海洋领域，有助于进一步发展理论和测试平台软件。最后，我们对本报告进行了总结，并提出了进一步研究的思考和启示。

在第一阶段的工作中，我们开发了一个基于新颖性多维表征的新颖情景生成框架。我们正式规定了这一多维表征、收集受测智能体数据的指标，以及评估智能体对不同类型新颖性的鲁棒性的方法。在使用转换生成新颖性的过程中，我们定义了 24 个函数签名，并计算了应用这些签名生成新颖性的上限复杂度。我们的研究表明，根据我们对新颖性的多维表征，使用这两种类型的变换来改变场景生成，我们能够显著减少新颖场景的空间。为了支持新颖性的精确生成，我们构思了 TALONS 模拟器抽象语言（T-SAL）来描述环境和这些环境中的各个场景。我们利用这些概念来支持第三方智能体对新奇事物的鲁棒性评估。

在第二阶段基期工作中，我们推进了 TALONS 框架的理论和实施，并收集了智能体在新奇事物生成器生成的新奇事物上的基线性能的初步实证结果。我们制作了三个源代码库，详见基础阶段最终报告，其中包含以下内容的实现：(1) TSAL 语言；(2) 新颖性生成器（实现 R 变换）；(3) 使用 CARLA 自动驾驶汽车模拟器的评估框架。从理论角度来看，我们利用第一阶段工作中开发的新颖性维度理论对新颖性进行了初步分析研究，并正式定义了 R 变换，然后利用这些定义正式定义了新颖性层次结构级别。

我们在第二阶段选择期内做出的独特贡献包括以下内容：

提供更新的 TSAL 解释器 - 基于 python 的库，可将 TSAL 语言文档转换为 python 类实例。其功能包括读取、写入和修改 TSAL 语言文档。在选择期内，我们为 TSAL 问题文件文档解析组件添加了目标表示。
修订了 T-SAL 规范定义。
完成了新颖性生成器的开发--这是一个基于 python 的库，使用 R 变换和 T 变换生成新的 TSAL 领域和问题文件。功能包括
- 用户可以选择要考虑的 R 变换，从而集中搜索特定类型的新颖性。
- 初始 T 变换包括生成随机情景和从种子情景生成情景，种子情景具有可选规格，可防止某些谓词类型在新情景中发生变化。
- 我们实现了与领域无关的过滤功能，以确定新颖性是否相关--如果不处理新颖性，智能体将会看到性能降低。
R 变换的正式定义
T 变换的正式定义
更新了大富翁领域的 TSAL 领域文件，并为 Vizdoom 领域、Blocksworld 领域和一个海事领域创建了 TSAL 领域文件。
在 Monopoly、Vizdoom 和 Blocksworld 域中进行了评估，以完善新颖性生成器的操作，并证明它可用于多个域。
为 Blocksworld 领域添加了 T 变换情景生成器示例
使用我们的新颖性维度对来自 SAIL-ON TA1 团队（WSU、UTD 和 ISI）的新颖性进行了分析。
我们提供了严格定义的 SAIL-ON 创新水平逻辑定义。这些定义可用于检验新颖性是否属于某一特定级别。
正式定义了发现有价值新奇事物的三个条件，我们将这些条件称为 "可学性条件"，因为它们反映了智能体是否有望 "学会 "一个新奇事物：相关性、可注意性、可控性。
我们创建了一个 "人在回路中 "的流程，开发人员可以使用我们的新奇事物生成器在其他模拟器中创建新奇事物，这些模拟器是在 TSAL 之外定义的，例如 Monopoly 和 Vizdoom。
在整个执行期间出版了 4 份讨论我们工作的出版物
支持第 36 个月和第 42 个月的 SAIL-On 会议，包括在这两次会议上介绍我们的工作。