并非所有人工智能(AI)都生而平等。虽然基础的大型语言模型能够处理和生成文本,但像OpenAI的GPT-4.5、Anthropic的Claude 4 Sonnet、Google的Gemini 2.5 Pro、Meta的LLaMA 4以及X的Grok 4这样的“前沿模型”(frontier models)则要强大得多。处于该领域最前沿的这类能力更强的模型,相比其更老旧、更小且更不先进的同类产品,拥有更深厚的知识库、更强的上下文理解能力以及增强的推理能力。在军队探索人工智能之际,选择能够驾驭现代战争无定形且不断变化本质的强大模型至关重要。在人工智能将在重大决策中发挥重要作用的军事应用中,前沿模型所具备的复杂程度并非奢侈品,而是必需品。
前沿模型是利用海量数据训练出来的强大系统。然而,何为“前沿”会随时间变化——而且变化极快。
衡量模型能力的一个关键指标是其“参数”(parameters)数量——可将其视为模型从数据中学习时调整的内部设置。参数越多通常意味着模型能学习更细微的模式。例如,拥有1750亿参数的GPT-3.5在2022年底被认为是先进的。但仅仅几个月后,OpenAI发布了GPT-4,“前沿”的门槛也随之改变。于2023年初发布的GPT-4拥有超过一万亿参数,构建所需的计算资源是其前代的十四倍多。GPT-4还展现出许多不寻常的特性,即微软所称的“涌现行为”(emergent behaviors)。据报道,最近发布的Grok 4拥有超过1.7万亿参数,这是惊人的。与它们更小、专注于特定任务的前期模型不同,当今庞大的前沿模型展现出远为强大的推理、处理复杂性和理解上下文的能力。
更大的模型更擅长思考,尤其是在任务需要多个逻辑步骤时,例如起草完整文件或进行技术分析。它们综合海量数据集的能力使其能够进行逻辑推理、连接不同想法,并在长篇论述中保持连贯性。这在网络安全和情报等领域至关重要,因为好的决策依赖于审视多种因素、发现隐藏模式并理解敌方行动。更大的模型似乎也有助于减少常见问题,如编造信息(通常称为“幻觉”,hallucinations)或表现出不公平倾向(“偏见”,biases)。另一方面,较小的模型在这些领域往往表现不佳。它们难以管理相互关联的信息片段,或在复杂问题中理清相互冲突的细节。这可能导致思维脱节、答案过于简单,以及无法处理诸如分析多样化威胁或理解复杂作战态势等复杂任务。当准确性和全面性至关重要时,模型的尺寸直接影响其分析信息和支援作战的能力。
另一个关键区别在于,更大的模型能够记住并利用长文档或讨论中的信息。这在军事应用中尤为重要,因为准确性和一致性至关重要。无论是处理情报报告、起草战略指导,还是在网络行动中综合大量日志,前沿模型都能保持一定程度的连贯性,从而减少不一致性并减轻人类分析员的认知负担。适应新情况对小模型来说也是一项挑战;它们未经过足够多样化数据的训练,无法处理前所未见的事物。前沿模型在庞大数据集上训练而成,并能同时考虑大量信息,因此更擅长处理通用任务,并能将旧知识应用于新问题而无需重新训练。较小的架构需要大量微调才能达到类似性能水平,但随后仅能在狭窄领域取得成功,使其在需要灵活性和快速适应的动态作战环境中显得脆弱。
诚然,小模型已展现出相比其前代的显著改进,甚至在某些狭窄指标上接近GPT-4等模型的能力。但GPT-4早已不再是最先进的前沿模型。这种比较并不具备许多人认为的分量。与此同时,现代前沿模型已变得如此强大,以至于让它们的前辈看起来像玩具。
高级领导者处理复杂、模糊不清的局面和过载的信息。前沿模型可以成为决策的有力助手,快速准确地汇总海量数据并解释要点。当参谋工作需遵循特定政策、法律规则和作战目标时,这些适应性强的模型可提供清晰的评估,确保建议合乎逻辑且一致。与难以在变化环境中平衡多种因素的小模型不同,更大的系统能结合过往案例、军事条令和当前信息,提出切实可行的行动方案。这能加速决策过程。高级领导者将获得条理清晰的分析,解释风险、收益以及选择可能对任务产生的影响——一个单一的AI系统有可能完成当前需要多个庞大参谋团队才能完成的任务。在速度与准确性同等重要的时代,利用先进AI辅助决策不仅有益,而且必不可少。
执行初步分析并加速调查。在当今的网络安全工作中,数据的海量和高速使得快速区分真实威胁与正常网络活动变得困难。前沿模型通过自动化初步审视这些数据可发挥关键作用:梳理安全日志、关联来自不同系统的相关告警、并在人类分析员介入前过滤掉不重要信息。这将使分析员从常规工作中解脱出来,使其能专注于明确的网络攻击迹象。除了这种初步分类,这些模型还能通过帮助创建高级数据检查方法、发现异常活动以及提供通常需要数小时人工工作的背景信息来加速调查。较小的模型难以进行多步骤思考并比较来自不同(尤其是大型)数据集的信息。然而,前沿模型足够强大,能够处理这些极其困难的任务。随着攻击者行动更快更频繁,这种AI能力对于效率和成功防御我们的网络都至关重要。
增强训练。良好的网络训练需要的不仅仅是固定的课程计划和老旧案例;它需要适应新威胁的逼真、灵活的教学。即使小型语言模型也有能力通过动态数据集和响应式场景来补充这种训练,但只有前沿模型才具备构建训练本身的能力。
较小的模型缺乏创建超越基础练习的有用网络训练所需的深刻理解。利用前沿模型,组织可以创建一个随着敌方方法变化而不断更新的网络训练系统。这确保我们的网络部队为现实挑战做好准备,而不仅仅是教科书案例。
前沿模型对军事应用的关键性引出了关于如何提供资源并实现该能力的重要问题。如果给予机会,许多士兵能做的远不止日常例行任务。这是“陆军软件工厂”(Army Software Factory)的基本假设,该工厂让服役人员开发软件,否则政府可能需要向承包商支付两倍、三倍甚至十倍的费用。但这与在最尖端技术水平上构建、调优或部署——或三者兼有——军队真正需要的那种最先进AI模型并非一回事。
另一个挑战是变化的快速步伐。一年前,若能在一个经认证的平台上使用现代模型,会欣喜若狂。如今,通过CamoGPT等平台拥有了这种能力。然而,目标已经改变。在过去几个月中,诸如用于增强复杂问题解决的专用推理引擎、像笔记本语言模型(NotebookLM)这样用于整合研究与写作的工具、像深度研究(Deep Research)这样的高级语义搜索能力,以及达到人类水平的文本转语音模型等变革性创新,极大地提高了大型语言模型的可靠性和实用性。军队花了一年时间追赶,结果却发现当他们赶上时,业界已遥遥领先。美陆军新的生成式AI平台——“陆军企业大型语言模型工作空间”(Army Enterprise Large Language Model Workspace),由Ask Sage提供支持,至少接近了目标,但缺乏许多这些关键功能及更多功能,并且还因采用基于令牌(token)的订阅方案(要求各单位自费购买访问权限)而执行不力——这是一个很少有人可能克服的障碍。也许到2026年,政府系统将拥有2025年今天可在商业上获得的AI能力,但也可能没有。即使有,民用与军用技术之间一年或更长时间的延迟也是一个显著差距。
然而,依赖外部创新将重大的法律和数据安全挑战推到了前沿。一个令人不安的事实是,大多数商业技术,包括军队所需的强大前沿模型,在设计时并未考虑处理政府拥有的非密和密级数据的严格要求。商业实体收集、汇总并最终将敏感军事数据用于其自身训练集、模型改进或商业利润的前景,不仅是一个假设性担忧,更是对数据主权的切实风险和对作战安全的严重关切。
这种困境使“自建还是购买”的权衡变得复杂。虽然内部开发真正的前沿模型难度陡增,但简单地接入没有严格数据控制的商业产品则是在招致灾难。精心构建数据治理框架、为政府用例建立独立安全的模型运行和微调飞地(enclaves)、以及明确定义并严格执行知识产权所有权和数据使用权——确保政府保留对其数据及任何利用其开发的AI能力的控制权——至关重要。这些不仅仅是官僚障碍,而是必须从一开始就融入军队AI采用战略的基本保障措施,以免旨在增强我们能力的工具本身成为泄密的渠道。
“军用级”(military grade)一词在军队中常常是个笑话。平民认为它意味着“高质量”,但服役人员知道它通常意味着满足某些模糊标准的最便宜产品。我们面临AI领域发生同样事情的风险。为加速国防部门采用AI,美五角大楼设立了“AI快速能力小组”(AI Rapid Capabilities Cell),但军队对通用需求的偏好,加上对大型语言模型糟糕的评估方法,很可能导致军队配备性能不佳的聊天机器人,仅仅因为它们成本更低,而非迫切需要的强大得多的力量倍增器。CamoGPT、现已停用的非密互联网协议路由器网络GPT(NIPRGPT)等平台虽好但不够卓越——通过这些平台可用的小模型与当今前沿模型之间模糊但至关重要的差异不容忽视,不能因为“够用就好”的理念而被抛弃。事实上,在CamoGPT中运行的小型开放权重模型与在专用数据中心运行的前沿模型之间的差异并非微不足道。AI应增强决策能力、优化工作流程并强化网络防御。在这些AI将在重大军事决策中发挥重要作用的背景下,前沿模型所具备的复杂程度并非奢侈品,而是必需品。
通过投资并整合前沿模型,军队可以实现AI的潜力——不是作为人类专业知识的替代品,而是作为增强决策能力、优化工作流程并强化网络防御不可或缺的工具。另一种选择——由于采购惰性或未能优先考虑而固守老旧、受限的模型——将导致停滞不前,而对手则在迅速采用——甚至自行开发——更优越的AI技术。为避免丧失技术优势,军队不仅必须投资并整合当前的前沿模型,还必须培养制度灵活性以持续适应不断演变的AI格局。在加速变革的时代,接受“够用就好”的AI是无法承受的风险。
参考来源:美国陆军