通过一系列联邦举措和命令,美国政府一直在努力确保美国在人工智能领域的领导地位。这些广泛的战略文件对美国空军等组织产生了影响。DAF-MIT AI加速器是DAF和MIT之间的一项倡议,旨在弥合AI研究人员与DAF任务需求之间的差距。由DAF-MIT AI加速器支持的几个项目正在开发公共挑战问题,解决众多联邦AI研究优先事项。这些挑战通过使大型的、可用于人工智能的数据集公开,激励开源解决方案,并创造双重用途技术的需求信号,从而刺激进一步的研究。在这篇文章中,我们描述了这些正在发展的公共挑战,以及它们的应用如何有助于科学进步。
2019年,美国联邦政府通过第13859号行政命令概述了一项广泛的战略,以确保在人工智能领域的领导地位。[1]概述了这一战略的核心,即实现美国人工智能领导地位所需的大量研究投资。这些研究推力的例子显示在图1的左边(来自[1])。联邦政府组织,如国防部和空军部门,开发了自己的AI战略,以实现13859号行政命令的广泛目标。空军部门的一项倡议是在麻省理工学院主办的人工智能加速器(DAF-MIT AI加速器)的开发。加速器由来自麻省理工学院和空军部门的多学科团队组成,以开发能够在空军和太空部队以及整个社会推进AI的基础技术。为了推动相对较新的领域的创新,并充分参与更广泛的AI社区,加速器正在开发一系列“挑战”问题。这些“挑战”包括开放数据集、基准、问题定义、指标、基线实现,并解决诸如天气预测、数据中心优化和人机界面等科学问题。并行开发多个挑战也支持了协同活动。例如,我们能够开发可复制的管道来发布开源数据集,提供统一的计算平台,并利用为一个挑战创建的数据来应对其他挑战。
在本文中,我们描述了通过DAF-MIT AI Accelerator开发的一些挑战,重点是当前发布的数据集和代码库。此外,开发超过10个挑战问题带来了我们所描述的一些重要教训。除了本文中描述的挑战之外,该团队还在开发其他即将发布的挑战。例如,Autonomous Flight Arcade[2]是一套人类和人工智能都可以玩的环境,旨在训练人工智能完成受真实航空场景启发的复杂任务。
1. 风暴事件图像(SEVIR)数据集
充分监测和预测地球天气对环境智能和人类安全至关重要,特别是在这个前所未有的气候变化时期。最近,人工智能通过利用用于[4]预测的大量地球系统数据集,显示出了提高预测性能的潜力。像GOES这样的平台提供的地球同步卫星数据,或者NEXRAD提供的快速更新的雷达信息,对于了解当前的天气状况和播种预报至关重要。然而,这些数据集的规模和复杂性往往会成为AI研究的障碍,与计算机视觉和自然语言处理等其他AI子领域不同,社区没有很多通用基准数据集来验证和基准化新功能。
创建风暴事件图像(SEVIR)数据集以解决此问题[5]。SEVIR将多种不同的天气传感模式(包括地球同步卫星图像、闪电探测和雷达)组合成一个人工智能就绪数据集,用于研究气象学中的几个问题。SEVIR包含超过10万个事件,每个事件由384公里x 384公里的图像序列组成,时间跨度为4小时。SEVIR中的许多事件都是根据国家环境信息中心风暴事件数据库选择的。
2. 数据中心面临的挑战
随着AI/ML工作负载在高性能计算(HPC)中心和商业云系统的计算工作负载中所占的份额越来越大,有必要更好地理解集群/数据中心的操作。数据中心挑战[9]旨在促进人工智能方法的创新,分析大规模数据中心监控日志,以减少能源消耗,改进调度策略,优化资源使用,并识别策略违规。
3. MagNav 挑战
利用地球磁场进行导航已经显示出了替代其他导航系统的可行性。商业和政府机构通过收集和存储磁场数据作为磁异常图,对地球进行了不同程度的精确测量。这些异常地图的变化使导航与传统的惯性导航系统相结合。这种技术不依赖于任何外部通信,在任何时间和任何天气都是全球可用的[12],而且也很难被干扰。
4. MultiEarth挑战
地球与环境多模态学习挑战赛(MultiEarth 2022)是首个旨在监测和分析亚马逊雨林在任何时间和任何天气条件下毁林情况的比赛。该挑战的目标是为多模态信息处理提供一个共同的基准,并将地球和环境科学界以及多模态表示学习界聚集在一起,在定义明确且严格可比的条件下,比较各种多模态学习方法与森林砍伐估计的相对优点。MultiEarth 2022有三个子挑战:1)矩阵完成,2)森林砍伐估计,3)图像对图像的转换。我们的挑战网站是https://sites.google.com/view/rainforest-challenge。
5. 口语ObjectNet挑战
近年来,多模态信息处理在图像字幕和视频检索等问题上引起了极大的兴趣和研究活动。存在各种各样的数据集来支持这些领域的研究,这些数据集通常包括一个图像或视频剪辑库,并搭配文本或语音字幕。不幸的是,许多这些数据集包含内在的偏见,这些模型在这些数据集上训练然后学习,这反过来降低了它们在现实数据上的性能。例如,图像字幕模型倾向于描述海滩上的人是快乐的,而图像分类模型无法识别雪地背景外的狼。为了解决这些问题,我们创建了一个名为ObjectNet的大规模人群来源、偏差控制的对象分类数据集,它由全新图像的语料库组成,而不是依赖于那些已经以某种形式[19]上传到互联网上的图像。接着,口语ObjectNet (SON)语料库通过收集ObjectNet图像的口语描述来扩展ObjectNet语料库,并为语料库创建一系列挑战任务,如下所述。
6. 机动ID的挑战
空军继续面临飞行员短缺的问题,部分原因是缺乏加快本科飞行员培训(UPT)过程所需的基础设施和方法。“飞行员培训下一步”(Pilot Training Next, PTN)是一个负责飞行员培训教育的实验项目,通过引入虚拟现实(VR)飞行模拟器[20],进入了开展这一课题的新阶段。这些模拟器的优化需要在许多方面增加训练和测试能力,包括机动识别和评分。AI挑战赛可以用来收集AI社区的解决方案,并将它们整合到PTN课程中。机动识别挑战是为了从弹道数据中识别机动,以提高飞行安全和飞行员训练。
7. CogPilot挑战
与现有的主观、粗糙的评估方法相比,采用量化的绩效测量和生理监测对飞行员的训练提供了更为个性化和客观的评估。CogPilot团队试图开发AI算法,利用多模态生理信号预测个体的认知状态和操作性能,从而支持飞行员训练的个性化优化。
8. 经验教训
开发一项挑战不仅仅是收集和发布数据。例如,图7描述了AI挑战所需的其他组件。根据我们的经验,开发一个引人注目的问题,执行昂贵的数据管理步骤[21,22],并提供基线实现和明确的成功指标,是吸引公众参与的非常重要的步骤。
DAF-MIT AI加速器利用挑战问题来公布数据,让公众参与,并推进机器学习科学。根据国家AI研究与发展战略计划,DAF-MIT AI加速器的使命是建立和建立一个持续的长期研究生态系统,以推动发现和洞察[1]。虽然重点是基础研究,但公共挑战加速了基础和高级研究向可导致商业化和操作能力的应用研究方向的过渡。DAF-MIT人工智能加速器专注于两用问题——对公众很重要、与国防有关的问题——不太可能由投资支持的技术公司提供资金。在新的机器学习能力成熟并被证明有效之前,缺乏商业前景将导致行业[23]无法满足关键需求。将鲁棒性和数据增强等研究算法应用于实际问题,填补了这一关键空白,并加速了AI向商业化和运营集成的过渡。根据某些衡量标准,“目前使用的82%的算法源自联邦资助的非营利组织和大学”[23]——这一衡量标准强调了开发公共挑战问题的必要性。
我们从开发这些AI挑战中学到了许多宝贵的经验教训:
开发平台: 开发AI挑战需要大量的计算资源(尤其是数据管理和基线算法开发)。作为一个例子,本文中列出的每一个挑战都利用MIT SuperCloud[24]进行前期开发。开发平台通常与部署不同,大多数项目都将其挑战部署在公共或私有云平台上。
数据/代码发布: 大多数组织对开源代码和/或数据集都有一个耗时的审阅过程。根据我们的经验,从一开始就包括法律和合同代表对于简化数据和代码的初始和更新的持续发布过程至关重要。例如,概述的每个挑战都与空军法官倡导(https://www.afjag.af.mil/)密切互动,以确定任何可能延迟数据/代码发布的法律问题。在由于数据敏感性而无法公开发布的情况下,例如在机动id挑战中,我们开发了数据所有者可以为他们的项目定制的模板数据使用协议。
可复制流程: 根据我们的经验,在开发挑战过程中需要做出许多小决策。例如,对库的依赖、支持的容器技术、具有较大上游影响的数据格式。为了提高再现性,精心挑选和选择文档是很重要的。
参与用户社区: 本文中概述的每一个挑战都有不同的科学社区。重要的是,通过研讨会和技术交流,让这个社区尽早参与到挑战问题的发展中来。这确保了有趣的问题、相关的度量标准和准确反映领域最先进技术的基线实现。