私营部门不断收集和整理关键数据及其来源,以通过利用数据密集型的人工智能机器学习(AI/ML)技术来确保支持和发展新的业务。大部分行业数据都是有价值的共享资源,而海军到目前为止还没有实现这种做法。本顶点研究通过研究、访谈和个人专业知识,探讨了海军在创造数据可用性和质量方面的挑战性任务。研究侧重于过程、技术和管理,采用了详细需求评估、利益相关者分析、功能设计。其研究结果是一个集中式人工智能库(CAIL)的概念框架,旨在匹配行业对数据作为关键商品的坚定关注。美国海军需要持久和动态的数字化准备,因此这个拥有70多年美国海军数据专业知识的顶点团队建议 OVERMATCH 考虑这些发现并生成一个确保海军数据可用性和质量的系统。
美国海军部(DON)对研究和开发人工智能和机器学习(AI/ML)系统的兴趣源于这些创新能力对海军任务和对作战人员的直接支持所带来的深远和改变游戏规则的影响。人工智能/机器学习系统可以被用来改善任务规划,减少人员配置,改善战术决策,简化系统维护和支持,提高安全性,在某些情况下,还可以将作战人员从危险中移除。战士日常活动的许多方面将发生变化,从常规和劳动密集型工作的自动化到支持复杂和时间紧迫的战斗空间决策。
只有当美国国防部首先释放数据的力量,才能实现AI/ML系统的这些进步。目前,在获取或"释放"DON的数据以开发未来的AI/ML系统方面存在许多障碍。整个海军的数据主要停留在"筒仓"或难以访问的数据库中,每个"筒仓"都在其领域内受到保护。在DON的数据领域内,定位、请求、获取和策划数据的过程并不正式。米勒(2021)说:"数据的所有者是美国人民。海军只是管理人和监护人"。这句话包含了将数据从孤岛中 "解放"出来的需要,以使海军真正成为一个以数据为中心的企业,并实现海军的数字化准备。
这个顶点项目开始了一项研究,以了解美国防部内AI/ML开发人员的数据需求,并制定一个概念性的解决方案来解决数据需求。其他目标是:
研究AI/ML方法如何在DON任务中应用。
了解数据需求是否在DON任务中普遍是标准的,或者数据需求是否在DON任务中有所不同。
制定一套 DON AI/ML利益相关者的要求。
为一个支持DON AI/ML数据需求的系统制定一个概念性设计。
研究实施概念性解决方案系统的潜在成本和进度效益。
时区团队(Team Time Zone)应用系统工程分析方法研究DON AI/ML开发人员的数据需求,并开发和评估一个概念性的系统解决方案,以解决这一数据挑战,并最终支持DON未来的数字准备,以解决复杂的任务。该团队通过采访三个不同的海军任务领域的主题专家(SME)来进行利益相关者的需求分析:系统维护、物理安全和战备。这三个任务被认为是 "数据提供者"的代表。此外,该团队还采访了数据研究人员和AI/ML科学家,以了解他们的数据需求。访谈为团队提供了基于独特和不同领域和经验的关注、挫折、经验教训和挑战的洞察力。从数据提供者的角度来看,反复出现的主题包括所有权的划分、信息保障的需要、数据未被收集或存储的情况以及对可访问性的担忧。从数据用户的角度来看,明显的轶事包括寻找数据的耗时,承诺的数据并不总是能够实现,以及即使在获得数据后,理解数据的背景也是至关重要的。该小组根据利益相关者的访谈和信息收集工作,为DON AI/ML制定了一套数据要求。DON AI/ML的数据需求是:
数据必须能够被外部组织访问。
数据必须被翻译成与其领域应用兼容的标准格式。
数据必须有确定的所有者。
数据必须伴随着描述性的元数据。
数据必须有标准化的管理。
数据必须以其 "最低标准"的形式被访问。
数据必须具有保护和适当共享的安全性。
数据必须具有混淆性,以保护个人身份信息(PII)。
数据必须伴有背景信息。
为了解决DON数据研究人员和AI/ML科学家确定的数据需求,Team Time Zone开发了一个中央AI库(CAIL)系统的概念设计,作为解决方案。CAIL系统的目的是简化 DON内部的数据访问和管理,以支持AI/ML系统的开发。CAIL系统旨在减少访问数据的时间(和相关费用),腾出更多时间用于AI/ML系统的实际开发、培训和评估。该团队提出,为了满足未来计划的访问和整合要求,CAIL需要成为一个 "数据云"。图1是CAIL的OV-1;它描述了为AI/ML开发简化DON数据访问和管理的拟议过程。
图1. CAIL OV-1
该团队根据六个主要类别制定了CAIL系统要求:数据准备、数据偏差、数据整理、数据分类、数据治理和数据安全。每一个类别都是针对利益相关者分析过程中发现的需求。CAIL系统将主要与外部联合数据、数据库、文件和权威数据生产商/供应商的内容对接。它将像 "谷歌 "一样为DON用户寻找数据。数据将是结构化的,并将伴随着元数据(关于数据的描述性信息),使数据可以被搜索。一个管理数据的社区将提供规则来管理对数据的安全访问和授权。
在利益相关者的分析中,很明显,在访问数据之前需要进行一些重要的活动。AI/ML开发人员解释了了解数据收集方式、数据来源以及其他有关数据的特定领域的背景方面的重要性。Team Time Zone将这些过程指定为 "预CAIL活动",并将其作为整个CAIL过程的一部分。
Team Time Zone进行了成本分析,以估计为DON实施CAIL系统的成本。该团队使用了两种方法来估计成本:传统的成本估计和基于模型的系统工程(MBSE)方法。该小组估计CAIL系统的成本(基于传统的成本估算)为3380万美元,持续时间为5年,每年的重复维持成本为400万美元。团队估算的CAIL系统成本(基于MBSE方法),在运行了一万次蒙特卡洛模拟后,平均为3290万美元,持续时间为5年。运营和维护模型的平均成本为每年440万美元。表1显示了CAIL开发和维护成本的摘要。
表1. CAIL系统成本汇总
为了使DON的AI/ML项目蓬勃发展,并在未来几十年内实现AI/ML的进步,DON必须确保数据的管理,并使AI/ML的发展能够被访问。Team Time Zone提出的CAIL系统解决方案将为AI/ML项目提供一个单一来源的综合数据环境,以访问存储在整个DON各种数据库中的数据库目录。Team Time Zone建议海军实施CAIL系统,通过确保AI/ML开发者访问持久和动态的数字数据来支持数字准备。CAIL系统支持DON项目和开发人员的协调方法,以安全访问数据。该小组建议超配项目(Project Overmatch)考虑这些发现并实施CAIL系统和流程,以确保海军的数据可用性和质量。该小组开发了一个CAIL标志(见图2),表明CAIL系统是海军的一个重要基础。
图2:CAIL标志。改编自美国海军标志。
技术的进步给军事领域带来了新的威胁类型和现有威胁的改进版本。对抗性威胁的进步要求海军改进现有的能力并开发新的能力,以提高防御能力并应对这些威胁。能力的增强需要提高速度、隐身性、机动性、反措施、扩大范围、更早发现和更大的杀伤力。这些增强的能力使我们能够在不确定的、复杂的和时间紧迫的条件下做出关键决定。现代战术作战人员面临着越来越复杂的决策空间。他们需要获得对动态战斗空间的态势感知,并确定有效的行动方案(COA)以满足任务需求。图1强调了造成这种战术复杂决策空间的因素。决策的复杂性来自于威胁环境,来自于知识的不确定性,来自于战争和信息系统本身,来自于作战人员与自动化系统和信息系统的互动和使用所产生的挑战,以及任务决策的重要性或后果的严重性。
图1:战士的复杂决策空间。资料来源:Johnson (2021).
美国国防部(DOD)和海军部(DON)正在研究使用人工智能(AI)来解决复杂的战术决策空间,通过改善态势感知和提供自动决策辅助来支持战术作战人员。利用人工智能方法的先进算法可以通过减少信息过载、改善态势感知、提高决策速度和加强一般的战术决策来减轻作战人员的认知负荷。预测分析(PA)可以支持对系统可靠性和故障概率的预测,这为物流提供了广泛的改进(Zhao和Mata 2020)。诸如PA等技术可以通过开发 "what-if "和 "if-then "情景来加强战术决策,通过预测决策选择的长期影响来改善战士的COA决策(Johnson 2020)。人工智能方法可以通过检测异常情况和从大量的安全摄像机数据中识别可能的威胁来改善海军基地的物理安全。
米切尔(2019)将人工智能定义为一个包括许多不同方法的领域,以创造具有智能的机器。图2显示,人工智能存在于一套广泛的自动化方法中,使机器能够根据命令和规则执行任务。人工智能是使系统能够执行模仿人类智能的功能的一套方法。机器学习(ML)方法是人工智能方法的一个子集。ML方法允许系统从被训练的大型数据集上学习。ML系统从训练的数据集中学习。然后,这些 "训练有素 "的ML系统在操作上被用来识别模式,并在新的操作数据下产生预测的结果(Johnson 2021)。
图2:什么是人工智能?资料来源:Johnson (2021)。
人工智能算法是编码的计算机程序,用于对数据进行分类、分析和得出预测。监控、交通预测和虚拟个人助理是实施ML算法的应用实例。
开发人工智能系统,特别是ML系统,是一项具有挑战性的工作。ML算法的初始训练是一个数据密集型的演变。人工智能/ML系统对数据要求很高,其准确性在很大程度上取决于数据训练集的质量和数量(Godbole 2020)。作为一个参考点,训练DeepMind的AlphaGo Zero系统学习下围棋花了大约40天,包括2900万场比赛(Feldman, Dant, and Massey 2019)。想象一下人工智能/ML武器系统算法所涉及的额外复杂性,它需要考虑战争背景(战争游戏、冷战、和平时期)、朋友或敌人、道德和合法性等概念(Feldman, Dant, and Massey 2019)。
随着美国防部开始开发人工智能和ML方法,出现了独特的数据挑战。开发人员需要大量的验证数据来训练他们的算法;这些数据需要准确、安全和完整,以确保算法不会被破坏或有偏见。这些数据集必须代表适当的操作环境。对于海军的应用,训练数据必须代表众多的任务,包括海上、空中、太空、水下、沿岸、网络和陆基领域的任务。尽管许多海军司令部和实验室正在研究和开发基于人工智能/ML系统的未来能力,但没有协调的程序来获取他们所需的海军数据。在许多情况下,数据是存在的,但要确定国防部的数据来源并获得数据是一项耗时和昂贵的工作。
这个顶点项目采用了系统工程分析方法来研究DON AI/ML开发者的数据需求,并确定和评估一个概念性的系统解决方案来解决这个数据挑战,并最终支持未来DON的数字准备来解决复杂的任务。
DON对研究和开发AI/ML系统的兴趣为各种应用带来了数据挑战。尽管DON的许多指挥部和实验室正在研究和开发基于AI/ML系统的未来能力,但没有一个协调的程序来访问他们所需的DON数据。AI/ML系统需要大量的验证数据来支持他们的发展和训练算法。在许多情况下,数据是存在的,但要确定美国防部的数据来源并获得数据是一项耗时和昂贵的工作。这个顶点研究了这个问题,并进行了需求分析,以确定DON AI/ML开发人员的数据需求,并开发和评估了解决DON数字准备这方面的解决方案概念。
这个顶点项目的主要目标是分析 DON AI/ML 开发的数据需求,并开发一个概念性的解决方案来解决数据需求。其他目标是
研究AI/ML方法如何在DON任务中应用。
了解数据需求在DON任务中是否有普遍的标准,或者数据需求在DON任务中是否有差异。
制定一套 DON AI/ML利益相关者的要求。
为一个支持DON AI/ML数据需求的系统制定一个概念性设计。
研究实施概念解决方案系统的潜在成本和进度效益。
时区团队由五个具有不同学术和专业经验的NPS系统工程学生组成。该团队由以下人员组成。
Robert French于2016年毕业于Old Dominion大学,获得了计算机工程和电子工程的学士学位。他目前是位于弗吉尼亚州弗吉尼亚海滩的海军水面作战中心Dahlgren分部-Dam Neck附件的特殊传感器技术部门的R.F.工程师。罗伯特也是美国舰队司令部海上作战中心N6(信息系统)的高级入伍领导(USNR)。他曾在现役中担任电子技术员超过14年,并成为现役预备役军人达9年之久。
Wallace Fukumae前拥有夏威夷大学的电子工程学位。他目前居住在夏威夷,为海军太平洋信息战中心工作,担任印度-太平洋部门主管。他的经验包括指挥和控制(C2)系统的开发和交付以及操作。
Kheng Hun目前居住在日本,拥有华盛顿大学的电子工程学位。他目前在海军信息战中心(NIWC)太平洋分部工作,担任位于日本横须贺的夏威夷西太平洋(HWP)分部的项目工程师。他的专业背景包括设计和安装各种C4I系统,如电子安全系统(ESS)和网络系统以及MILCON项目的C4I系统规划。
Obed Matuga拥有马里兰州巴尔的摩市摩根州立大学的工业工程学位,在华盛顿特区的海军海洋系统司令部工作。与宙斯盾和舰船自卫系统一起工作,目前居住在马里兰州。
Caitlyn O’Shaughnessy于2015年毕业于马萨诸塞大学达特茅斯分校,获得计算机科学学士学位。她目前是罗德岛纽波特的海军海底作战中心的CANES(S.S.)项目的首席工程师。
图3描述了时区团队(Team Time Zone)的组织结构和每个团队成员的主要职责。图中还显示了NPS的项目顾问,Bonnie Johnson博士(系统工程系)和美国海军上尉Scot Miller(退役)(信息科学系)。
图3:团队时区组织图
时区团队采用了系统工程的方法来进行这个项目。图4说明了该团队的过程。团队从需求分析开始,以了解问题并为DON AI/ML开发者定义数据要求。在这个阶段,团队确定了三个DON任务领域作为AI/ML应用的代表性领域。接下来,团队在功能分析和系统综合的基础上,制定了一个名为中央人工智能库(CAIL)系统的解决方案战略的概念设计。该小组对CAIL系统进行了建模,并利用DON的三个任务领域来分析实施CAIL系统的效用和潜在的成本/进度效益。该团队的分析过程涉及几种分析方法,包括定性调查、定量调查、建模和模拟、数据结构和格式分析、需求分析和操作概念评估。
图4:顶点项目的方法
首先,该团队通过进行需求分析和为海军AI/ML开发人员制定一套数据要求来确定需求的定义。该团队确定了利益相关者,并与来自不同海军任务领域的AI/ML开发者会面,以了解他们的数据需求。该小组进行了文献回顾,以收集背景信息并了解当前的人工智能/ML方法。团队对来自利益相关者会议和文献审查的信息进行了汇编,以了解与支持海军AI/ML应用有关的要求和限制、数据所有者、数据源、数据系统、数据元素和数据属性。
该小组研究并确定了利益相关者和三个海军任务主线的独特数据要求:系统维护、实体安全和战斗群准备。该小组确定并采访了任务领域的主题专家(SMEs),以了解获得AI/ML实施数据的过程,并关注需要从DON系统和组织中收集和存储哪些数据。图5说明了海军的三个任务主线,以及数据、架构、基础设施和互操作性能力在支持这些作战人员任务领域方面的直接潜在重要性。
图5:美国防部任务领域
接下来,团队根据需求分析结果,制定了一个概念设计方案,以解决海军对人工智能/ML发展的数据需求。该团队综合了CAIL系统,并生成了CAIL操作概念(CONOPS)和CAIL功能模型。基于国防部建筑框架(DODAF)和系统建模语言(SysML),该团队开发了概念模型,详细说明了CAIL的系统特征、功能和操作概念。
顶点项目的最后阶段是团队对CAIL解决方案方法的评估和分析。该团队使用Innoslate(一种基于模型的系统工程工具)开发了一个模型,以表示CAIL系统在三个海军任务主线中的使用情况。该小组评估了CAIL系统的能力,以简化和改善收集、格式化、策划、验证和确保安全访问海军任务数据集的过程,以支持在三个海上任务线领域工作的AI/ML开发人员。对该模型进行了评估,以估计海军实施CAIL系统的潜在成本和调度效益。CAIL系统模型被用来验证和确认需求。
第一章提供了项目的介绍和动机,描述了问题陈述、项目目标,以及团队的组织和完成项目的方法。
第二章总结了团队的文献回顾,为需求分析提供了基础,强调了训练AI和ML算法所需的数据。文献回顾包括对数据科学、统计学习、深度学习、分类学以及支持AI和ML系统的企业信息技术解决方案的信息探索。
第三章包含了团队的需求分析结果。
第四章包含了对团队的概念性解决方案--CAIL系统的描述。
第五章介绍了团队对CAIL系统的分析和评估结果,该系统是解决海军在支持AI/ML发展方面的数据挑战的解决方案。
最后,第六章讨论了拥有CAIL系统的影响和结论以及对后续研究和工作的建议。