图:2023 年 12 月 1 日在阿拉巴马州红石兵工厂展示的一体化作战指挥系统,该系统是美陆军更广泛现代化工作的基础,可为战场提供变革性的防空和导弹防御能力。
美国国防部(DOD)在实现联合全域作战的目标方面面临着严峻的挑战,原因是无法实现商业领域所体现的数据存储、管理和分析的基础性快速发展。这种转变始于 2000 年前后,当时商业部门在技术进步方面开始超过国防部门,这主要是因为商业部门拥有适应性强的数据策略和计算能力。
本分析报告强调了数据处理在为联合全域作战开发具有成本效益的杀伤链方面的重要意义,因为这需要跨域的复杂行动。区分了需要复杂机器才能理解的大数据和人类可以自然理解的小数据。此外,还利用**“数据-信息-知识-智慧”(DIKW)(信息链)金字塔作为决策模型**,对商业和军事行动进行了类比。
分析建议采用基于对象的存储来应对跨域数据集成的挑战,并提出了一个基于 DIKW 金字塔的框架,以河流、溪流、水库、瀑布和湖泊为类比进行说明。该框架展示了采用商业数据策略,特别是基于对象的存储,如何使美国国防部能够利用各种来源的数据,为战术和作战决策者提供更多知识。从本质上讲,这项研究强调了美国政府和国防部采用商业数据实践的紧迫性,以促进先进的跨领域算法,使决策者能够更深入地了解复杂情况,并具备更有效的决策能力。
1640 年,约翰-格拉特(John Graunt)在试图对数据分析进行首次描述时,记录了英语单词 "data "的首次使用。早在公元前 1.9 万年,人们就开始计算创建事实或数据类型。自十七世纪以来,从农业、医学到国防,数据的复杂性和应用范围不断扩大。国防工业一直走在应用数据和决策公式的新方法的前沿,包括数据传输的速度;例如,路径从侦察队到电报到无线电再到计算机速度的变化。戈登-摩尔(Gordon Moore)在 1965 年预言,随着技术的进步和每个元件成本的降低,每个集成功能的元件数量将以对数的速度增加,这就是通常所说的 "摩尔定律"。自 20 世纪 60 年代以来,商业和国防部门之间计算可用性和复杂性的关系发生了倒置。20 世纪 60 年代,军方在获取高性能计算方面具有明显优势,在应用计算机技术解决问题方面处于领先地位。如今,商业与国防计算机能力的应用已经倒置,导致商业领域的计算量远远超过了军事领域的单个系统计算量。
举个最好的例子,一辆具备完全自动驾驶能力的特斯拉汽车的计算能力大约是一架 F-35 战斗机的 180 倍。虽然基于边缘的战术计算,如飞机、车辆或手持无线电中的计算,必须不断努力提高计算的安全性和可靠性,以分解计算位置并使敌方目标定位复杂化,这些都是商业世界很少担心的问题,但军方可以通过关注数据分析的商业应用,在反向关系中找到优势。更多的数据生成并不一定等于更好的决策,在获取新计算技术的成本曲线上,军方可以大幅增加对现有数据集的使用,以实现决策空间。
定义商业数据、战略和二分法对于确定哪些数据分析方面的商业进展应适用于国防部门十分必要。此外,本节还介绍了所谓数据层的商业观点,包括从数据到可用产品或决策的过渡。从 "数据 "一词的词源可以了解其形成。数据 "是 "拉丁文'datum'的复数形式,意思是'给定的事物'"。按照经典用法,数据是 "在数学问题中作为计算基础给出的事实"。数据集(data set),单数,表示一个数据块,可以进行一般分类,如大数据或小数据。将事物归纳为数据集,如果不承认大数据集中的单个数据类型,就无法正确理解、分 类、整理和管理数据。因此,简单地说,数据集允许应用数据策略,但大数据或小数据一旦分类,就会限制所述数据策略的操作或战术使用。
所有数据都是事实块,无论其大小、形状、存储位置等如何,进一步试图区分大数据和小数据不仅仅是分类,会造成数据管理论点的不统一。然而,不管是数据纯粹主义还是词源学上的错误,保持看似大数据或小数据之间的分离可以有针对性地应用战略、作战概念和部署概念。大数据或小数据之间的主要区别来自于对被称为数据的四个 V 的四个特征的衡量:(1) 数量,(2) 速度,(3) 多样性,以及 (4) 真实性。每个 "V "本身都可以将数据集从小规模分类拖入大规模分类。简单定义:(1) 量是指 "数据量",(2) 多样性是指 "数据来源和类型的多样性",(3) 速度是指 "数据传输和生成的速度",(4) 真实性是指 "数据的准确性和可信度"。第五个 "V",即价值,通过回答企业应用信息管理技术的 "为什么 "问题,创造额外的效用。遗憾的是,商业模式的价值与军事应用的价值会造成主观价值与客观价值(决策价值与美元价值)之间的争论;因此,本分析报告不采用价值分类。
图:2019年9月19日,两架F-35 "闪电II "战斗机在美国中西部上空接收燃料后靠岸。虽然基于边缘的战术计算必须努力提高安全可靠的计算能力,以分解计算位置并使敌方目标定位复杂化,而这些都是商业界很少担心的问题,但军方可以通过关注数据分析的商业应用,在反向关系中找到优势。(本-莫塔军士长拍摄,美国空军)
从更简单的角度来看,商业界简单地将小数据归类为 "在数量和格式上都小到足以让人类理解的数据",而将大数据归类为 "过于庞大和复杂,无法用传统数据处理技术进行分析和处理的数据块"。为了对人类能够处理的数据进行分类,我们必须假定人类在处理上述数据方面接受过培训并达到了一定的能力水平。举个简化的例子,一个电子优化(EO)传感器,如日间电视摄像机,产生的视频图像可以由训练有素的人类进行处理并做出决策。与此相反,由日间电视和红外摄像机组成的电子优化传感器群会产生包括多种来源在内的多种模式(红外和电子优化)的复杂图像,以至于单个人很难在近乎瞬时的时间轴上处理原始图像。
数据为何重要?数据本身固然有趣,但绝不能为了生成数据而生成数据。数据必须产生下游效应,而它所提供的效应就是采取正确行动的智慧。问题就在于,如何从数据到行动?商业领域的数据分析师使用一种行动金字塔模型,称为“数据-信息-知识-智慧”(DIKW)金字塔(如图 1 所示),它从基础数据层开始,到信息层,再到知识层,最后以智慧结束。从知识层和智慧层产生的行动意味着,使用从数据中产生的智慧的个人或实体会带来预定义或预先训练好的机构决策矩阵,当这些矩阵与智慧相结合时,就会产生适当的输出。虽然 DIKW 金字塔是本世纪初在信息技术领域提出的,但它的真正魅力在于其简单性。因为简单,所以 DIKW 金字塔与数据分类无关,这意味着它既适用于大数据,也适用于小数据。在小数据示例中,人或计算能力较弱的计算机--这里指的是战术系统--可以通过预编程过滤器、算法或人的直觉,从收集到的数据中有机地获取信息,并带来自己对情况的了解,最后采取行动。数据、系统和算法的简单化等于缩短了处理和决策的时间。
"数据"层是 DIKW 金字塔的基础,是向行动模型输送原始数据的心脏。假设对于一般行动而言,没有数据,行动模型就会崩溃。1989 年,组织理论家罗素-阿科夫(Russell L. Ackoff)给数据和信息下了一个定义:
数据是代表物体、事件及其环境属性的符号。它们是观察的产物。观察就是感知。当然,感知的技术,即仪器,已经高度发达。如前所述,信息是通过多方面的分析从数据中提取出来的。
可以说,有关情况、环境或其他观察结果的原始事实构成了数据层。
图 1. DIKW 金字塔模型
信息是 DIKW 金字塔的下一层。将信息视为对数据问题的回答。这些问题可以驱动具体的答案,也可以驱动结合多种数据来假设和回答问题的推断答案。问题还可以驱动在数据上完成其他功能,从而得出答案。请参考以下有关精确数据和推导数据的示例和解释。如果数据分析师从某一事件的与会者名单中查询特定人员的出生日期或社会保险号,分析师就能提取精确信息。相反,如果数据分析师想知道参加活动的每个人的平均年龄,那么分析师就必须首先确保列表中的每个人都参加了活动,也许可以通过查询出席情况二进制,然后在完整的年龄列表中执行平均函数。这个简单的例子表达了数据和信息之间的一些重要关系。要推导出所需信息,查询的数据集必须包含所需的准确或可推导数据;反之,信息也可以揭示数据中未包含的内容,包括基准的相关性。未包含在所查询数据集中的数据有助于发现不同数据集之间的关系,从而帮助得出答案或揭示数据结构问题。
任何试图优化信息提取的数据分析师都必须首先分析信息请求与数据结构之间的关系。根据《大数据百科全书》,"根据数据的存储和分析方式,可将数据分为结构化数据、半结构化数据和非结构化数据"。结构化数据是有组织的数据,通常 "采用严格的行列格式"。半结构化数据是结构化数据的另一种形式,但由于其性质,无论是原始数据还是严格格式的数据,都没有 "底层数据模型,因此不能与任何关系数据库相关联"。最后,非结构化数据是最常见的数据类型,"没有概念性数据类型定义",其内容通常存储在生成系统独有的文件类型中,例如智能手机图片、网页或多光谱图像。
正如《大数据百科全书》的 DIKW 部分所述,"随着数据集以结构化和非结构化的形式增加,分析和管理也变得更加多样化"。在商业领域,存在多种不同类型的网络存储和其他广泛的技术或技巧,用于 "分析、操作、聚合和可视化大数据",但与国防领域密切相关的是基于对象的存储。
基于对象的存储允许管理、存储和调用大量非结构化数据或半结构化数据。它是数据整理的一种形式,即 "创建、组织和维护数据集的过程,以便人们可以访问和使用这些数据集"。MySQL 是 "世界上使用最广泛的开源关系数据库管理系统 "之一,于 1995 年使用 1981 年创建的代码库创建。自 1981 年以来,商业和国防部门都创造性地成熟和发展了 MySQL 和其他工具的使用,以提高数据库管理的效率和效益。然而,要释放这些创造性的传统技术,数据必须以某种结构化数据库的形式存在。因此,关键在于如何对非结构化或半结构化数据进行整理,以实现多种数据策略,同时防止被供应商锁定。
基于对象的技术可以根据数据的内容和其他属性来存储数据,使用可变长度,并在调用数据时使用唯一的识别参数,从而实现数据的结构化。通过创造性地应用简单算法,将非结构化或半结构化数据分离成具有特定属性和适当标识的对象,数据分析师可以通过一些必要的更改,应用传统的数据挖掘算法,快速、准确地提取信息。巧合的是,基于对象的管理可以为不可预见或从未见过的观察结果分配新的对象空间,虽然可能无法立即使用,但可以指导未来的使用,以调整任何数据类别的不平衡。(注:类不平衡对机器学习非常重要,可防止输出的信息出现偏差)。虽然基于对象的存储并不是管理非结构化或半结构化数据或将其纳入结构化数据集的灵丹妙药,但它确实提供了一种组织途径,使现代和进化的信息生成策略成为可能。
在 DIKW 金字塔中,数据产生信息,进而产生知识和智慧。由于每个数据集都不可能拥有回答信息请求所需的全部数据,因此优化存储和管理系统可提高信息回报率。基于对象的存储是非结构化或半结构化大型数据集管理的一个范例,可实现快速的数据灵活性和信息应答能力。下一节将介绍如何将 DIKW 金字塔和基于对象的存储概念应用于战术和作战军事结构。
没有信息就没有数据,没有数据就没有信息。——丹尼尔-基斯-莫兰
数据管理和信息调用策略在应用于不同层次的决策时会产生不同的效果。在商业和国防领域,战术决策和行动决策的定义具有相似的特点。二者之间的区别在于战术层面,即针对特定目标做出即时决策,以达到现场效果。而作战层面则需要做出更大规模的决策,以完成长期目标。本分析侧重于作战和战术层面的一个主要区别,即各自遵循的时间表。
较长的作战时限为收集和使用更多数据提供了机会,但作为一把双刃剑,"作战 "一词意味着更大的部队机动计划,因此需要持续、果断和即时的行动来影响战场。而战术时间轴则更为细化,决策更为简单,因此决策所需的数据也更为精确。如果将 DIKW 金字塔想象为战斗空间内或与战斗空间有关的所有部分的总和,那么作战行动就应努力占据金字塔的最大部分。同时,战术行动应努力优化决策空间,只考虑与下一组行动相关的信息。如图 2 所示,DIKW 金字塔可细分为不同形状,以体现不同类型的行动。图中展示了一个行动杀伤链示例,包括了解环境、决定首选命令、在相对控制范围内采取行动,以便沿着智慧和知识的缝隙传递命令和控制行动。这些行动进入金字塔的环节,战术用户在这一环节中实现对其中所含意图或授权的理解,决定正确的效果和及时性并采取行动,同时将观察到的情况和效果反馈给作战环节。
图2:DIKW分解示例
在更大范围内,行动和战术关系要求信息和知识在固有的鸿沟中自由双向流动。作战行动本质上包含一系列战术行动。由于数据、信息、知识和智慧的流动对于行动和战术的成功至关重要,因此可以将 DIKW 金字塔的每一层比喻为水体。每个水体的填充或流动速度各不相同。把源源不断的情报收集者看成是一条数据河,而信息断言结果则是填满知识库某部分的水流。来自每个收集者的知识汇聚在一起,形成总体态势感知或知识库。同样,知识以瀑布的形式产生战斗空间意识和理解。这些瀑布反过来又帮助填满了与态势相关的智慧湖,而这个智慧湖已经被部分填满,其来源包括预培训、条令和最近发生的事件。随着对局势的认识发生变化,这个湖也会随之起伏,但在起伏的过程中,它会达到决定性的填满点,从而需要采取行动。一旦采取了行动,在以评估形式等待行动结果的同时,湖面的水位也会随之下降。在图 3 中,这种水量类比显示为 DIKW 水位。
图3:DIKW 水位
DIKW 水金字塔与作战或战术系统无关。举例说明了来自单一战术系统的多个不同收集器如何产生战术理解、决策和行动,或者在作战中,多个不同的战术系统如何为作战理解、决策和行动提供信息。关键因素是基于对象的数据管理如何通过允许信息查询超越任何单独的数据流来填补信息流的空白。此外,这一因素还突出表明,多数据流和跨数据流信息的凝聚力可填充一个凝聚的知识库,其中的单个知识片段可实现态势感知,从而激活条令和培训。然而,在条令和训练缺乏的情况下,它也为非典型行动创造了决策空间,而这些行动在适当知情的情况下,可能会为当前形势创造最佳解决方案。消除数据凝聚力,就无法从多种来源获取信息,从而减少了在任何一种情况下所获得的知识,并导致采取不明智的行动。因此,数据管理可实现数据处理和随后的信息收集,是改善杀伤链动态的最经济、最有效的方法。
没有大数据分析,企业就像瞎子和聋子,在网络上游荡,就像高速公路上的小鹿。——杰弗里-摩尔
国防部门正处于一个拐点,需要应用跨越式技术来利用各种形式的数据。从个性化广告到机器学习语言模型(如 ChatGPT),再到市场研究、数据存储和调用,商业世界的数据应用已呈爆炸式增长。DIKW 金字塔提供了一个简单的数据增长框架,只要应用得当,就能将未来的杀手链概念付诸实践。要使传感器网为射手网提供数据,关键在于数据管理。在一个通信(尤其是高带宽、低延迟版本)无法得到保证的世界里,数据管理可以以一种更面向未来、更可预测的方式提供连续的成功决策。基于对象的存储和管理是在考虑可靠性和弹性的前提下实现无限可扩展性数据管理的最佳方式。使用任何搜索引擎,都能找到一个又一个倡导基于对象存储的解决方案,从 Google 到 Amazon Web Services,再到 RedHat 等等。"20世纪90年代末,卡内基梅隆大学和加州大学伯克利分校的研究人员开发了对象存储软件,如今,该软件可以在单一命名空间中存储和管理TB级(TB)或PB级(PB)的数据,具有规模、速度和成本效益的三重优势。"
美国防部应在其情报机构中采用基于对象的存储解决方案,从而在联合全域作战中引领下一代杀伤链动态。首先,它应完成对所有数据源的分析,特别是查找数据源存储数据的位置和方式。然后,应寻找基于对象的存储解决方案在正确插入后可将当前数据流调整为对象的地方。他们必须在战术边缘节点和大数据设施完成这一步骤,而这是一项尚未充分开发的业务。最后,国防部应尝试不同的信息调用算法,以确保数据的可用性。完成这一步后,国防部将创建一个供美国政府各部门采用的框架,并为联合全域指挥和控制以及未来的设计方法奠定基础。同样,基于对象的存储并不是万能的,但它是政府如何利用商业部门的努力来发现、提取和实施最具成本效益和最有用的元素的一个例子。了解数据为总体机器提供支持的方式对政府来说至关重要,因为这将有助于现在做出更好的决策,利用传统投资,优化数据工作流程,并最终在需要时提供工具和知识。