寻求获得对敌技术优势先发制人优势的军队,已开始试验使用大语言模型/生成式人工智能来解决军事问题。然而,将生成式人工智能这类新兴技术发展为能够满足复杂军事需求、具备实战能力的成品所需投入的资源似乎令人望而却步。
自开放人工智能研究中心于2022年11月30日向公众发布ChatGPT以来,其激发了数百万人的想象。其吸引力源于使用的简便性。任何人只需输入自然语言查询,即可获得连贯、全面的答案,并附带进一步优化查询的提示或建议问题。生成式人工智能能够以人类自然语言快速生成连贯的问题答案。基于其数据库的规模及神经网络的复杂程度(这些网络可生成模式、回忆信息或将二者关联以预测未来事件),它能够进行意指、预测、决策、制定战略并执行诸多关键行动。
生成式人工智能已开辟了一条通往现今称为“认知人工智能”领域的道路。其引发的兴奋源于它通过执行类人认知功能革新众多领域的潜力。认知人工智能依赖于机器基于思维进行决策(以及在不久的将来能够像人类一样感知)的这种被感知的能力。在此过程中,机器将能够像人类一样做出决策。
生成式人工智能已成为探索机器智能以“生物学上合理的方式”进行决策能力的一个途径。重要的是,机器的决策速度可能快得多,并且能够吸收和处理来自不同来源、不同形式的多种输入。在未来冲突中,一个机器决策者能够在人类决策者所需时间的一小部分内,可视化跨陆、海、空、天、电磁和认知域的同时行动而后做出决策,其所提供的优势是不可想象的。
朝着这个方向的探索已经以广为人知的生成式人工智能,即大语言模型为开端。以技术为核心的未来冲突图景,在生成式人工智能和大语言模型潜力的驱动下,吸引了全球军队的兴趣。能够预见利用此类工具最佳路径的军队,或许能够改变战争本身。目前,是商业企业在引领生成式人工智能工具的研发。
军队也正积极与商业科技公司合作,开发可用于作战应用的大语言模型。报告显示,2023年7月,五角大楼数字与人工智能办公室对五个商用大语言模型进行了试验。这些模型经过“秘密级别数据”训练,以回答敏感的作战相关问题。这些演练旨在将人工智能赋能的数据整合到所有作战应用中,包括部署大语言模型生成全新的行动方案。报告强调了大语言模型如何被证明有助于协助规划人员制定军事应对方案,以应对一场正在酝酿的全球危机——其中以地球另一端的某个小事件为导火索,而局势迅速蔓延至某地区。
情报、监视与侦察
《麻省理工科技评论》曾重点报道了两名美军军官在实战演习中使用大语言模型搜罗开源情报以收集目标国家信息并撰写情报报告的案例。他们使用的人工智能工具由从事国防相关人工智能研究的Vannevar Labs公司开发。
规划、模拟与训练
美国海军陆战队高级作战学校委托Scale AI公司的一个团队调整一项规划演习,以考察大语言模型如何协助军事规划。该团队使用与战区级作战相关的数据训练了一个大语言模型。数据包括开源情报、学术文献、条令出版物及其他来源。该演习旨在检验在竞争环境下(低于战争门槛)威慑对手时,在战区层面进行作战设计、行动与投入的情况。其成果是名为“赫尔墨斯”的用于军事规划的试验性大语言模型。基于模拟演习中获得的经验教训,此类工具可提升在真实作战场景中的战斗创造性。
缩短OODA循环
通过跨域整合人工智能,大语言模型正在测试其将数据、决策与执行间的延迟缩短至“几分之一秒以实现更快传感器到射手回路”的能力。大语言模型增强了其运用“实时情报”引导打击行动的能力。这些模型可将侦察单元与精确打击能力集成,以快速闭合“杀伤链”。
后勤保障
大语言模型在后勤管理中已投入应用的其他案例包括:为给定条件寻找最优路径与运输方式、安排人员轮换、优化能源利用、预测装备维护需求、评估官兵身体与医疗战备状态,以及协助设计体能训练计划。
知识管理
美国陆军公共事务处使用其自有大语言模型起草了完整新闻稿。该模型命名为“陆军企业级大语言模型工作空间”,为服役人员提供利用先进人工智能工具增强“沟通、作战效能并驱动创新”的平台。据报道,该大语言模型改善了数据共享与士兵数据获取能力。印度海军也在试验Samvaad.ai交互式聊天机器人,以实现从海量数据集中高效检索信息。
机器人与大语言模型集成
美国公司已开发出如Skynode-S板卡等专为大语言模型应用优化的微型计算机技术。这些系统使无人机能在执行其他任务时锁定目标并自主导航至目标。
• 幻觉现象:对查询的回复包含事实错误信息。这源于数据质量问题、恶意数据或对问题的理解不足,导致词汇间关联性差。
• 不透明性:自然语言处理所用算法具有不透明性。难以或无法理解神经网络如何得出回应。
• 偏见与有害数据:从恶意或污染训练数据中继承的内在偏见(如人脸识别系统中的性别或种族偏见)可能扭曲输出。此外,受地理、社会和文化因素激发的偏见也会歪曲信息。
• 数据过时:未定期更新的数据库会导致大语言模型基于陈旧数据给出错误结果。
• 有限推理能力:大语言模型能进行关联但难以执行因果推断,导致推理问题。
• 数据安全性:已知大语言模型会通过记忆无意间泄露数据。该风险与模型反转攻击(恶意行为者可能从大语言模型回应中重构涉密数据)叠加加剧。
• 易受网络攻击:对抗性攻击通过构造特定输入针对数据库弱点,操纵或误导大语言模型产生不良或有害输出。此类攻击可能进一步放大漏洞,威胁人工智能工具所生成决策选项的完整性。
• 提示词注入:恶意个体通过提示词注入将有害指令嵌入表面无害的提示,从而绕过既定安全措施。用户可能借看似单纯的问题寻求非法活动指导或获取机密信息。此类提示可能恶意影响大语言模型或导致错误/有害指令传播。
• 自然语言编程缺乏精确性:编程语言是精确的,而自然语言处理存在歧义。这源于同一词汇的多重语境含义及复杂语法。此类模糊性可能导致大语言模型回应出现错误与不准确。
• 升级性回应:当用于兵棋推演中的决策辅助时,大语言模型表现出“难以预测的升级行为”。这对大语言模型提供的决策支持框架的可靠性提出质疑。
此外,谷歌研究团队测试了当前在用大语言模型在言语理解、知觉推理和工作记忆参数上的表现。模型结果充其量好坏参半。所有模型在某一参数上表现优异达到近人类水平,却在另一参数上严重失败。例如,所有模型在从工作记忆召回信息时表现良好,但在知觉推理和处理视觉信息时表现不佳。仅测试记忆或言语理解时模型表现良好,但加入感知测试后表现变差。这表明部署于真实战斗场景的全能机器大脑愿景仍是一个遥远目标。
掌握有效生成式人工智能/大语言模型的诱惑似乎强到让军队可忽略其局限或失败可能性。然而,尚无军队独力投身于仅呈现混合结果的技术。军民结合成为唯一安全路径。
2025年3月5日,美国国防创新单元(DIU)授予Scale AI公司合同,在“雷铸”(Thunderforge)项目下开发基于大语言模型的全面人工智能解决方案,用于战区级规划与决策。2025年6月16日,美国国防部通过首席数字与人工智能官办公室(CDAO)向开放人工智能研究中心(OpenAI)授予2亿美元合同,开发生成式人工智能模型以“构建前沿人工智能能力原型,应对作战与企业领域的关键国家安全挑战”。Scale AI的“多诺万”(Donovan)模型宣称是首款能处理密级军事数据、为美国陆军第18空降军提供决策解决方案的大语言模型。两名海军陆战队军官开发开源情报(OSINT)平台所用的生成工具由前述Vannevar Labs创建。2024年11月,该公司获得国防创新单元高达9900万美元的生产合同,以向更多部队推广该情报分析技术。
美国海军陆战队高级作战学校委托Scale AI团队调整名为“赫尔墨斯”(Hermes)的战区级规划演习。军队选择了开源大语言模型,并通过用代表特定领域的额外文本训练基线模型来进行微调。成功“微调”后,所得模型展现出对目标领域的更深理解,从而可能提升特定领域任务性能。该结果对试验军队具有吸引力。
所有现有应用案例均基于民用科技企业的大语言模型。在生成式人工智能/大语言模型的当前阶段,军队似乎对在不与民用科技巨头合作情况下独立开发军用大语言模型持谨慎态度。此方法的原因在于创建大语言模型所需付出的巨大工作量。诸如ChatGPT4.5、Claude 4 Sonnet、Gemini、Llama 4或Grok 4等前沿大语言模型基于数万亿参数训练,需要庞大数据库,并消耗大量算力、资金、时间与人工智能工程人才资源。OpenAI、Meta、谷歌和X等商业科技巨头似乎拥有必要能力。它们专注于开发商业成功的人工智能工具与平台是其产品成功的关键。
军队可能会发现独立开发大语言模型成本过高,正如美军通过其CamoGPT和NIPRGPT项目所认识到的那样。开发大语言模型所需时间也是一个因素。待新型军用大语言模型成型时,当期成熟模型在技术及应用复杂度上已遥遥领先。观察家还担忧,急于应用生成式人工智能/大语言模型解决特定军事问题——例如从开源情报收集信息或从非密数据库检索特定查询答案——将导致开发出“狭窄用例应用”,而非基于对战争全面理解的技术。军民结合方式似乎为军队提供了一条安全通道,使其能试验大语言模型,而无需承担从零开发的巨大投入,或因任何原因放弃项目时损失巨额资金的风险。
参考来源:idsa