大数据与人工智能(AI)的结合实现了准确预测和明智决策,为工业和研究带来了革命性的变化。这些进步也在军事领域找到了自己的应用位置,一些举措整合来自不同领域的数据源和传感器,提供共享的态势感知。在城市军事行动中,及时了解具体情况的信息对于实现精确和成功至关重要。数据融合将来自不同来源的信息结合在一起,对实现这一目标至关重要。此外,民用数据可提供关键的背景信息,并对任务规划产生重大影响。本文提出了军事数据空间(MDS)概念,探讨大数据如何通过结合民用和军用数据来支持军事决策。文章介绍了使用案例,强调了数据融合和图像认证在提高数据质量和可信度方面的优势。此外,还讨论了数据安全、隐私、完整性、获取、融合、联网和利用人工智能方法等方面的挑战,同时强调了构建下一代军事应用的机遇。
大数据的兴起改变了企业存储、管理和分析海量数据的方式。此外,大型数据集的可用性和更强大硬件的发展也为人工智能(AI)时代的到来铺平了道路。尽管存在局限性,但这些课题在军事领域也找到了适用性。其中一个例子是美军使用的多域作战(MDO),后来扩展为联合全域指挥与控制(JADC2),以及 "共同作战图景"(COP)概念,这些概念整合了多个领域(陆地、海洋、空中、太空和网络空间)的各种数据源和传感器,使决策变得更快、更明智,提供了从战术到战略的各级组织的共享态势感知。此外,北约社区已通过北约核心数据框架(NCDF)讨论并测试了数据湖概念,以便在适当的时间/形式与联盟伙伴共享可靠的跨域信息。
利用先进的算法和计算能力,人工智能可以处理庞大的数据集,揭示人类通常无法察觉的复杂模式。这使国防行动能够增强实战经验、促进任务执行、做出数据驱动的决策、协调来自不同来源的数据,并加强应对威胁和灾难的准备。通过整理来自不同来源的数据,指挥与控制(C2)部门可以深入了解城市景观,并通过数据融合技术[3]、[4]促进态势感知决策[1]、[2]。现代城市部署了传感器网络,利用大数据支持城市军事战略。此外,社交媒体平台是宝贵的文本、图像和视频来源,丰富了态势感知,但也带来了数据完整性等挑战。在 "非战争 "行动中,包括打击腐败政府、毒品贩运和人道主义任务,大数据、数据融合、数据完整性和人工智能在任务成功中的重要作用在当代全球格局中变得显而易见。
本文深入探讨了利用大数据促进军事决策以及相关挑战。文章以简明易读的方式涵盖了该领域相对欠缺探索的各个方面。在此背景下,研究介绍了军事数据空间(MDS)的概念,这是一种将军内数据(IMD)和军外数据(EMD)结合在一起的新方法,旨在引发讨论并开发军事解决方案。然后,它通过以数据融合和图像完整性机制为重点的使用案例来说明大数据的好处。最后,它讨论了使用大数据的挑战和机遇,集中在支持战略性军事决策必须考虑的四个主要方面:i) 数据融合;ii) 安全/隐私和完整性;iii) 人工智能;以及 iv) 网络作为访问大数据的手段。
从网络视角讨论数据传播问题具有现实意义,文献中也有广泛论述。因此,本研究旨在引发对大数据观点的讨论,以及利用大数据造福军事系统的可能性。此外,我们还强调了应对整合 IMD 和 EMD 相关挑战的重要性。这种整合对于建立有凝聚力的大数据,最终提高军事决策能力至关重要。总之,本文的贡献如下:
文章结构如下。第二节介绍了 MDS 的概念。第三节回顾了有关军事和民用场景中大数据的最新文献。第四节介绍两个使用案例,说明大数据如何支持军事决策。第五节讨论了军事数据领域的挑战和机遇。最后,第六节总结了本研究讨论的主要方面,为文章画上了句号。
军事数据空间(MDS)的概念是根据 [5] 中讨论的观点提出的。它提供了一个以数据为驱动的军事场景视角,有助于根据不同的数据源做出决策。MDS 包括两个主要类别: 军内数据(IMD)和军外数据(EMD),如图 1 所示。目前大多数军事文献都只针对 IMD 提出和评估系统(如中间件、协议)。然而,随着信息和通信技术(ICT)的迅猛发展,民用系统已成为不可忽视的数据和基础设施(网络)的重要来源。因此,考虑到数据隐私/安全、完整性、获取、融合、联网和利用人工智能等挑战,MDS 旨在支持关于 EMD 如何帮助军事决策的讨论。
图1 军事数据空间。
IMD 与军方提供和消费的数据相对应,主要分为两层:带有真实/虚拟传感器(来自空间/航空/地面/航海单元)的基础设施和信息层,包括作战、情报和后勤数据。
基础设施包括传感器(如雷达、声纳、照相机)和其他电子系统收集的数据,可探测和跟踪空中、陆地或水中的物体;车辆传感器可提供军事单元和周围的状态;可穿戴/智能和物联网(IoT)设备可通过 GPS 定位、地图、健康测量、实时照相机(高分辨率、红外线)等为战场上的步兵提供支持。这些数据可用于监测和识别潜在威胁、协助锁定敌军目标以及监测步兵状况。
除了来自真实/虚拟传感器的原始数据外,IMD 还包括信息层,该层融合了从作战到情报等各种来源收集的数据,以创建一个更可靠、更广阔的作战视图,这也是 JADC2 和 COP 系统的目标。情报信息可帮助军队了解敌军的能力和意图,识别潜在威胁并制定作战计划。后勤数据提供有关物资、装备和人员的信息,如运输时间表、库存水平和维护记录。这些数据对于确保军队拥有有效执行任务的资源至关重要。
军外数据是由真实/虚拟传感器单独或融合提供的数据子集,可描述军事行动周围的环境。因此,可定义用于支持军事行动的两个主要数据层:基础设施(如交通系统、天气、当局)和信息(如社交媒体、新闻、政府报告)。这些层产生了大量高度可变的信息,从用户对实时事件(如事故、腐败和恐怖主义)的感受和照片,到城市环境中的交通/天气状况和人们/驾驶员的行为。
信息和通信技术在城市地区的发展催生了智能城市的出现,智能城市通过增强流动性、安全性和健康解决方案来应对城市化带来的挑战。智能城市基础设施包含传感器,可捕捉有关车辆、交通、天气和驾驶员行为的宝贵数据。传感器和物联网设备的激增也产生了大量数据,这使得利用云通信技术和人工智能应用开发智能系统成为可能。在大数据的推动下,数据融合应运而生,它整合了来自多个提供商的数据,以提高质量和覆盖范围,并减少海量数据流量。融合来自交通、天气、摄像头、医疗系统等的数据,不仅有可能支持民用应用,还能通过提供上下文数据支持战略性军事行动。在传感器基础设施有限的情况下,来自社交媒体和政府报告等媒体来源的数据可帮助了解当地行为,并识别影响犯罪、腐败和毒品贩运的因素。
社交媒体数据对于支持与紧急事件和灾难相关的信息非常有价值,可通过捕捉独特信息(如需要救援的群体的位置或隐藏人员的存在)来补充其他传感器数据。建筑物上的固定传感器和监控摄像头可帮助进行人员跟踪,以准确识别位置。社交媒体数据与其他数据源相结合,有助于敌情侦查和战术规划。与交通相关的传感器数据,特别是交通监控摄像头,在应急响应和军事后勤方面发挥着重要作用。它可以检测事故造成的拥堵和堵塞,从而改进军事行动期间的路线规划和交通管理。整合所有收集到的信息可增强态势感知,促进城市环境中行动的有效规划和管理。
针对近期发生的事件,如俄罗斯战争以及美国和巴西等国的反民主极端分子所带来的挑战,已经出现了多项举措。其中一个例子是 ACLED(武装冲突地点和事件数据)项目,该项目提供有关政治暴力和抗议事件的实时全球数据。另一个值得一提的项目是 DATTALION,这是一个广泛的开源照片和视频片段数据库,记录了俄罗斯对乌克兰的战争。该数据库的主要目的是反击俄罗斯政府散布的错误信息。联合国开发计划署(UNDP)利用机器学习(ML)算法和大数据来检测乌克兰东部受损的基础设施。语义损坏检测器 (https://tinyurl.com/semdam) 利用卫星图像和地面照片对算法进行训练,以识别建筑物、道路和桥梁的潜在损坏,协助地方当局和人道主义组织确定行动的优先次序。这些举措极大地促进了 MDS,特别是 EMD,为分析和研究提供了宝贵的资源。
本节探讨大数据在军事领域的应用,重点从数据内(IMD)和数据外(EMD)两个角度概述大数据在军事行动中的重要意义,并探索利用其潜力的最新解决方案。
大数据在军事领域的一些挑战已在文献中提出,并成为北约社区讨论的主题,如作战安全性、漏洞加固和数据可靠性[1]、[2]、[6],以及北约 IST160 和 IST-173。纳入与外界几乎没有联系的自主隔离(如 EMD)可能会限制大数据的自由流动,这就要求在保持系统自主性和保护性的同时,以创造性的方式利用大数据。在这一方向上,COP 和 JADC2 引导研究人员和行业使用和融合来自不同军事实体的数据,以支持战略决策。
Kun 等人[1]提出了在军工企业构建大数据平台、建立多级数据通道、实现全面数据管理和控制的详细技术方案。该平台有利于数据的收集、组织、处理和分析,将数据转化为知识,以加强决策/服务支持、创新、质量控制和风险管理。Xu 等人[6]强调了数据科学在当代战争中实现信息优势的重要性。他们的系统性综述显示,社会科学文献对数据科学风险给予了极大关注,这可能会影响政治和军事决策者。然而,与战术层面相比,科学文献缺乏对作战和战略层面风险的关注,这表明存在研究空白。这一差距可能是由于 IMD 与 EMD 之间缺乏联系造成的,而 EMD 可以支持行动和战略决策。
多传感器数据融合(MSDF)方法是在战术场景中提供快速高效的目标探测、跟踪和威胁评估的一个实例,如文献[4]所示。数据融合的另一个应用领域是基于位置的社交媒体(LBSM),它可以增强各个领域的知识,包括交通特征描述和事故检测[7]。利用 LBSM 系统可以获得更详细的交通数据,有利于军事后勤工作。在特定的军事环境中,可以利用 LBSM 系统的潜力来提高数据可用性,并实现情境感知操作。
数据完整性对于维护对 MDS 的信任至关重要[9]。被篡改的数据会产生严重后果,影响民事和军事决策过程,破坏对数据源的信心。社交媒体平台上错误信息的泛滥就是这一挑战的例证,这些错误信息往往被利用来施加政治影响,乌克兰正在发生的冲突就是一例。为应对此类问题,Twitter 等平台修订了其政策,标记了许多与俄罗斯国家附属媒体相关的推文,并检测了数十亿条与冲突相关的实时推文印象[10]。
与此同时,图像认证的出现解决了人们对图像完整性和来源验证的担忧。然而,包括人工智能软件在内的先进图像处理工具的兴起使图像验证变得越来越棘手。虽然图像验证引入了水印、数字签名和感知散列(pHash)等多种技术[11],但每种技术都有其优势和局限性。例如,水印可提供真实性和所有权保护,但可能会影响图像质量,而且容易受到高级处理技术的影响。相比之下,pHash 可以灵活地进行图像操作,并对内容变化敏感,因此特别适合在社交媒体平台上使用。在数据完整性和图像认证的背景下考虑这些挑战和解决方案至关重要。
首先,大数据的时空融合是为了支持军事决策。由于缺乏所讨论的可用 IMD,多数据融合(MDF)框架[12]被实例化,用于收集、准备和处理 EMD,并将其融合以提供丰富的信息。为了证明时空数据的丰富性,MDF 利用基于云的系统共享数据的公共可用性获取了交通系统数据。不过,该框架可扩展到其他各种数据类型。其目标是提高数据质量、改进 C2 系统和军事后勤,并支持城市地区的 COP/JADC2,从而创造出将融合 EMD 与来自不同领域的可用 IMD 结合使用的新方法。下文图 2 介绍了 MDF 的主要功能。此外,还通过分析数值结果讨论了融合大数据的好处。
对于数据采集,图 2 (1)配置了一组参数(如区域、请求频率)和数据源,MDF 为此收集各种格式的数据,并将其存储在文件中。在准备阶段(2),通过将不同的地物名称和类型转换为统一的表示方法,对输入数据集进行标准化。这包括各种数据映射,以生成统一的数据类型,例如将描述性映射为数值或降低数据粒度。此外,还启动地图匹配,将所有地理定位数据(可能具有不同的精确度)融合到同一个路网中。MDF 对所有收集到的数据进行预处理,并从收集到的区域获取 Shapefile (SHP)。请注意,根据应用目标和可用数据类型,框架可能会应用不同的特征提取方法,如自然语言处理(NLP)(情感分析、关键词提取、词法化、词干化和自动摘要)或图像处理(图像分割、边缘检测和对象检测),以从非结构化数据类型中提取信息。在使用案例中,我们没有使用 NLP 算法,因为数据是无文本图像和基于交通的数据。不过,建议的数据融合框架具有多功能性,可以处理各种数据类型,包括可以应用 NLP 技术的文本数据。
图2 数据融合框架工作流程。
第三阶段实现时间/空间数据融合和数据导出。为确保数据完整性,需要事先过滤非信任信息或有偏见的信息,例如,根据信息在不同数据源或图像认证机制中的出现情况,使用验证信息的方法,如第四节B部分所述。时间数据融合是通过对任意时间窗口(如每分钟、每小时、每天)内的数据进行分组来实现的。为了进行空间融合,MDF 利用地图匹配,根据底层道路网络在规定的精确度下对 GPS 点进行对齐。由于不同数据源的 GPS 报告精度各不相同,因此必须这样做,才能将所有地理定位数据映射到相同的道路网络中。
最后,在图 2 (4)中,丰富的数据以不同的格式输出,为军事和民用领域提供了多种可能性。MDF 的输出通过创建不同类型的统计数据和可视化效果来支持时空分析,从不同的空间和时间方面描述可用信息的特征。
表I 按数据来源分列的道路覆盖情况。
之前的工作[11]介绍了一种利用 Twitter 和 Facebook 来确保图像完整性的图像认证系统。该系统采用卷积神经网络(CNN)和全连接层(FCC)进行特征提取,采用位置敏感散列(LSH)进行散列构建,并采用对比度损失最大化原始图像和篡改图像之间的差异。该模型的输出是每个图像 1024 位的固定长度向量表示。
为解决在城市军事行动和民用系统中保持图像完整性的重要性,提出了图像事实检查器(IFC),如图 3 所示。它能检测虚假图像,确保数据的可信度,并作为当局主导的认证系统,打击错误信息。系统会生成带有徽标或图标的验证版照片,表明其已通过 IFC 系统验证。此外,IFC 还提供了图像的感知散列(pHash)字符串表示,可将其纳入描述或在其他网站上共享。数据融合系统是 IFC 的一个可能的终端用户,它可以在应用时空融合和生成丰富数据之前对抓取的图片进行验证。
图3 Image-Fact-Checker (IFC)。
建立一个能提供即时真实信息的自动化系统是一个相对较新的概念,因此通过比较来评估其有效性具有挑战性。然而,由于创建令人信服的伪造图像的人工智能生成模型的兴起,实施图像认证系统现在变得至关重要。添加这一系统作为验证层有助于防止或减少虚假信息的传播,尤其是考虑到不断发展的互联网法规会对缺乏反虚假信息措施的平台进行处罚。一种有效的方法是将 IFC 系统与政府机构连接起来。IFC 方法具有通用性和可扩展性,可提高个人的意识和信任度。
图 4(左)是通过 DATTALION 从普通社交媒体用户那里收集到的两张未经验证的图片。这些图片只是更大数据集中的一小部分。用户通常不愿意相信这些来源,因此有效利用这些来源具有挑战性。然而,当这些图像经过 IFC 机制处理后,其可靠性就会提高,因为任何进一步的篡改都很容易被检测出来。如图 4(右图)所示,应用 IFC 后,每张图片都会收到 pHash 和相关信息,如图片描述、提取的特征、位置、事件日期、抓取日期、发布者 ID。这些经过处理的图像将存储在 IFC 数据库中,供今后查询。该数据库有多种用途:重复检测、完整性验证以及满足特定最终用户的要求。
图4 使用IFC提取图像细节。
数据融合的第一个挑战是寻找和获取军事和民用领域的可用数据。出于隐私/安全考虑,信息可能无法广泛获取或获取途径有限。在军事领域(IMD),数据受到更多限制,这为探索可用的民用数据(EMD)以支持战略性信息决策提供了机会。第二个值得注意的挑战是融合多种数据源,这些数据源可能具有不同的结构(结构化、半结构化和非结构化数据)、标准、数据类型(如文本、图像、视频)、测量单元、粒度和时空覆盖范围。因此,需要深入了解如何准备和处理不同的数据集,并将其融合为一个数据集。
处理社交媒体中的图像和文本需要进一步的程序,如特征提取方法(如 NLP 和图像处理),以提取可用信息。尽管数据融合面临诸多挑战,但将从不同角度(如指挥部、用户、记者、政府、传感器)描述同一空间和时间的不同数据源结合起来的好处,可以加强军事行动的规划和战略阶段,为 COP 和 JADC2 系统提供支持。
数据安全与隐私: 保护敏感的军事信息对国家安全至关重要。需要强大的加密、安全的数据存储和访问控制来降低风险。建议采用的技术包括公钥基础设施(PKI)安全、受保护内核、数据加密、防火墙和入侵检测。然而,如何在数据共享、有利于信息融合和安全/隐私措施之间取得平衡,对军方来说仍是一项具有挑战性的任务。
数据完整性: 被操纵的数据会给民用和军用决策带来风险,并降低对数据提供者的信任度。在生成内容的人工智能模型不断进步的帮助下,篡改图像迅速传播,参与度不断提高,这凸显了对智能综合解决方案的需求。通过社交媒体分享的图片能够快速传达复杂的想法,从而为救援行动提供支持,使人们能够立即采取行动,如在城市发生事故/灾难时改变交通路线。图片还能唤起情感联系,增强读者对新闻事件的理解。然而,乌克兰战争等危机扩大了错误信息的传播,这就需要 snopes.com 和 norc.org 等人工事实核查机构的参与,以打击错误信息。然而,在战争期间或为打击腐败政府而进行基于人工的实时核查可能会耗费大量时间,这就为设计自动系统来验证图像和处理虚假信息创造了机会。
虽然这项工作的主要重点在于数据视角,以及确保使用来自不同来源的可信数据来支持军事行动的相关性,但同样重要的是要认识到网络在有效提供数据和服务方面的重要性。在以网络为中心的军事行动中,利用高频、甚高频、超高频、卫星通信、Wi-Fi 和 LTE 4-5G 等各种技术进行无线通信至关重要。有些技术擅长长距离覆盖,但带宽有限、延迟高,而且容易受到干扰。另一些则以可靠性为先,覆盖范围较短,带宽较大,延迟较低。
以信息为中心的网络(ICN)和软件定义网络(SDN)等网络范例对于优化数据传播和网络协调至关重要[13],尤其是在网络资源有限的情况下。在军事网络中,尤其是在战术边缘,数据传播过程中会出现资源有限和安全问题等挑战。为解决这些问题,军方可能会探索包括民用网络在内的各种基础设施,以获取和融合非军事数据。以欧洲 5G COMPAD 联盟为例,目前正在考虑采用 5G 技术。然而,由于硬件通信系统成本高昂、带宽和互操作性有限,因此具有挑战性。这就需要定制参考架构来满足军事通信需求。
在最近的乌克兰-俄罗斯冲突中,俄罗斯对乌克兰基础设施的攻击导致互联网中断,暴露了通信网络的脆弱性。SpaceX 的 Starlink 卫星互联网星座提供了一种解决方案,证明了在战时利用民用网络基础设施的价值。尽管该技术有望提高互联网在数据和紧急通信方面的可靠性,但它在网络安全、覆盖范围、可靠性和成本效益方面仍面临挑战。
由于隐私、安全以及军事机构为防止滥用和限制 IMD 的可用性而施加的限制,为人工智能研究访问军方拥有的大数据带来了挑战。此外,人工智能功能可能会受到对抗性攻击的影响,对抗性攻击会通过改变造成错误分类来欺骗人工智能模型。快速梯度符号法(FGSM)和语义攻击等技术分别有助于识别和减轻计算机视觉和 NLP 中的此类攻击。Yuan等人[14]对攻击、对策和基于应用的分类标准进行了全面评述。
要检测对抗性攻击,一种有效的方法是使用具有与主人工智能模型不同特征的辅助人工智能模型。这一想法源于早期的卫星通信。当时,人们使用电报等辅助系统来防止对卫星通信的中间人攻击或干扰攻击。由于带宽有限,辅助系统只能传输与完整卫星数据相对应的摘要数据,用于侦测攻击和应急通信。同样,在人工智能中防范对抗性攻击时,传统的 ML 可以作为辅助系统,产生与主要 CNN 方法一致的结果。对抗性攻击依赖于计算机视觉深度学习模型中的梯度技术,而传统的 ML 方法则使用不同的方法,这些方法对这些攻击操作大多具有免疫力。
在军事领域使用人工智能的另一个问题是需要共享敏感数据来训练模型。在这方面,联邦学习(FL)作为一种训练 ML 模型的技术已经出现,在这种技术中,数据不会暴露,从而确保了数据的安全性和隐私性[15]。虽然它不能被视为对抗恶意攻击的防御技术,但这种方法隐藏了敏感数据和模型或参数的一部分。这种技术对于建立在人工智能基础上的新兴军事应用非常有价值。
本文探讨了大数据在军事领域的应用。研究了与整合不同数据源、确保数据安全、隐私和完整性以及联网和利用人工智能相关的机遇和挑战。文章引入了 MDS 概念,以丰富和引导讨论,强调纳入民用数据的潜力,以提高军事行动战略决策所需的信息质量和数量。此外,文章还包括两个实际使用案例,说明了数据融合的好处以及实施图像认证机制以保持数据完整性的重要性。这些发现凸显了大数据在军事领域的重要意义,并强调了在该领域开展进一步研究和探索的必要性。