【DARPA终身学习机器（L2M）计划】《终身学习衡量标准》约翰霍普金斯大学应用物理实验室2022最新23页论文

2022 年 11 月 8 日 专知

引言

DARPA终身学习机器（L2M）计划旨在推动人工智能（AI）系统的发展，使其能够不断学习（和改进），利用一项任务的数据来提高另一项任务的性能，并以一种计算上可持续的方式做到这一点。该计划的参与者开发了能够执行各种功能的系统，包括自动驾驶、实时战略和无人机模拟。这些系统具有不同的特点（例如，任务结构、生命周期），该计划的测试和评估团队面临的直接挑战是衡量这些不同环境下的系统性能。本文件是与DARPA和项目执行者紧密合作开发的，概述了构建和描述执行终身学习方案的代理性能的形式主义。

在第2节，我们介绍了终身学习情景的一般形式。这需要指定智能体可能接触到的不同类型的经验，以及应该从这些经验中产生什么指标。在第2.1节中，我们简要地概述了智能体展示终身学习的标准。在第3节中，我们定义了一套衡量标准，以描述智能体在特定场景下表现出的终身学习的程度。诸如[4, 7, 24]等资料中的讨论也有助于为终身学习背后的思想打下基础。

我们的框架和指标是为了尽可能不受智能体配置（如渐进式网络[21]或弹性权重整合[11]）、领域（如自主导航、机器人、战略、分类）和环境（如StarCraft[25]、AirSim[23]、CARLA[2]、Habitat[14]、Arcade[1]、SplitMNIST[7]或Core50[12]）影响。它也可以与终身学习的平台结合使用，如Avalanche [13] 或 CORA [19]。

智能体、领域、环境和其他术语在附录C中有更详细的定义。我们推荐[18]作为终身学习一般领域的最新方法和进展的概述。从历史上看，在如何定义和评估终身学习的系统和指标方面存在着很大的差异；不同的论文可能关注不同的指标。除了这里引用的那些论文之外，还有许多其他的论文以正向转移等概念为论据来激励其系统设计。本文提供了一套适用于一般终身学习问题的、定义一致的衡量标准。特别是，尽管终身学习领域的许多早期工作都集中在减轻灾难性遗忘的问题上[5]，[15]--一个代理在遇到新任务时失去了以前获得的执行任务的能力--但我们这里的度量标准努力捕捉灾难性遗忘和终身学习的其他特征，如转移和与只接触单一任务的代理比较。

一个包含这些指标实现的Python库12metrics正在开发中，不久将公开发布。本文件将在开发完成后予以更新。

这份文件是如何制定的

在DARPA L2M项目的过程中，执行者、测试和评估团队以及DARPA系统工程和技术顾问（SETA）组成了几个工作组，定期开会讨论终身学习背后的概念和特征的衡量标准。本文件记录了这些讨论后达成的共识，其内容只有在这个过程中的密切协作下才能形成。特别是，定义和情景工作组提出了终身学习的标准（第2.1节）以及任务和环境（第2节）等概念，度量工作组制定了度量标准（第3节），在项目评估期间和之后，执行者根据他们在系统中的使用经验，对定义和度量标准进行了反馈。