利用大型语言模型（LLM）实现信息环境中作战（OIE）自动化

无论称之为非动能作战、信息战、信息行动还是信息环境作战（OIE），计划和执行这些活动都异常困难。一次标准的行动需要几个月的时间，而 OIE 的官僚作风使得在 24 小时内从摇篮到坟墓的执行几乎不可能，尤其是在冲突期间。生成式人工智能可以加快这一进程。人工智能可以在几秒钟内生成文本和图像等内容。在人工质量控制人员的适当提示下，人工智能可以开发出大型语言模型和文本到图像模型，能够高效地生产优质产品，从而大幅减少工时。这种能力可以在军事领域得到广泛应用。

在讨论如何实现 OIE 要素自动化之前，先定义一下重要术语。

人工智能（AI）：数字计算机或计算机控制的机器人执行通常与智能人相关任务的能力。人工智能模拟人类智能来解决问题。
生成式人工智能（GAI）：使用户能够根据各种输入快速生成新内容。这些模型的输入和输出可包括文本、图像、声音、动画、三维模型或其他类型的数据。
大型语言模型（LLM）：一种使用深度学习算法的 GAI 形式，可以使用庞大的数据集识别、总结、翻译、预测和生成内容。最著名的 LLM 是 OpenAI 的 ChatGPT。
文本到图像模型：一种根据文本提示创建图像的 GAI 形式。
（人工）幻觉：一种LLM生成与现实世界输入不符的看似逼真的输出现象。

JPP对规划人员和参谋人员来说是一个有价值的模型，但很少在演习之外使用。LLM 的高效率可以鼓励其采用。由 LLM 生成的任务分析和作战行动分析可大大减少计划人员花在集思广益和生成产品上的时间。由于 LLM 是一种统计算法，它们可以更好地告知、权衡和比较预期效果的可能性以及不同 COA 的风险。有了实时向指挥官和规划人员提供简明行动更新和估计的自动化系统，工作人员就能以信息环境的速度开展工作。在演习环境中，LLM 可以代表演习指挥人员充当 "白方"，管理数以千计的输入，并根据红蓝部队的活动得出现实的结果。

自动化可以进一步开发大量的 OIE COA。能够编写代码、翻译、调试、识别安全漏洞、分析软件合规性等的 LLM，可以提高计划人员可利用的网络空间行动的规模、速度、复杂性和多样性。通过重复叙述、阐述、操纵、播种和说服，影响力作战有可能提高速度和规模。从理论上讲，训练有素的当地联络官可以作为受信任的内部人员/多数群体成员，向其他内部群体的目标受众成员发表讲话。

LLM 可以帮助指挥官和规划人员在信息环境中快速行动。通过不断摄取机密和开放源码数据、大规模分析情报和兵棋推演，LLMs 可以将向 OIE 提供情报支持的许多方面自动化。人工智能还能极大地促进参谋估算和联合行动计划的制定。LLM 可以快速起草指挥官指导产品和行政行动，指挥官可以对其进行完善，以确保质量和意图不受损害。此外，在某些情况下，人类指挥官可能会授权自动批准特定的战术任务，并规定明确的界限和红线（例如，将军不需要批准每一次进攻性网络空间行动）。在现代战争中，在一些特定的环境和时间范围内，需要指挥官以人类无法操作的速度或规模进行审批。与完全自动化相比，将审批权下放给训练有素、技能娴熟的在环人员仍然更为可取。当然，人类审批者仍应承担责任，特别是对于可能产生暴力影响的 OIE，因为人工智能不会像人类那样珍视人的生命，因此无法追究其法律责任。外交和人际关系需要人类的经验和指挥官的智慧。

LLM 确实存在一些显著的局限性和脆弱性。虽然这些令人印象深刻的统计算法似乎能理解所写文字的含义，但其实不然，因为它们只是文字关联的数学公式。LLMs 无法像人类那样理解世界，这导致它们经常产生幻觉。这其中有重大的安全考虑因素--我们可以想象这样的场景：LLM 提供错误的情报数据，导致人类指挥官做出错误的决定；或者人工智能得出结论，认为核行动会比稳态行动产生更可行的长期结果。因此，它们不可能成为不受监督的人工战略家、规划者或指挥官。

创建一个对军事有用的 LLMs 是一个多步骤的过程。作为 "生成式 "人工智能，它们必须在已有数据的基础上进行训练。在将这些训练数据输入 LLM 之前，必须对其进行收集和适当调节。用于商业和学术用途的训练数据可能很容易获取，格式一致，并经过预先校准，以确保其可靠性和质量，但用于军事目的的高质量训练数据可能更难获取。安全等级将阻碍数据的获取，而可用数据的格式可能并不常见，质量也无法得到一致保证。一旦输入这些训练数据，评估人员（人类或其他人工智能）将在迭代改进循环中对 LLM 的输出进行评分。要建立对军事有用的 LLM，需要解决数据集、合同、范围和完善循环等问题。

数据的可访问性、规范化和真实性是为军队创建可用数据集的最大挑战。所需培训资料的分类各不相同，这是最直接的可访问性障碍，不过将所有资料移至最高成分分类是一种行之有效的变通办法。军方文件存储的分布式性质增加了额外的复杂性，因为资料通常存储在孤立或受限的网络、权限受限的文件服务器、SharePoint 站点、电子邮件、个人文件夹和打印纸上。访问这些资料需要大量的协调工作。军事资料长短不一，可以用各种字体和编码书写，通常以具有灵活复杂元数据结构的文件格式存储。有用的信息也可能以机器较难读取的格式存储，如书面文本的图像。这些产品的规范化需要将文件的关键部分转录为文本。由于需要判断是否需要省略格式过于定制的产品，因此人类最有能力完成规范化工作。不过，由于需要大量的训练数据，其他自动化流程会更加实用。不过，依赖自动规范化需要一定的信任，因为错误的训练数据会错误地训练 LLM，使其产生错误的输出结果。因此，数据的真实性对于确保高质量的 LLM 输出非常重要。然而，简单的错误（如重复文件或错别字）或恶意行为（如用大量错误信息毒害训练数据集）都会影响数据的准确性。此外，随着时间的推移，数据的真实性也会发生变化，因为数据会过时或后来被推翻。

训练 LLM 需要非常抢手的技能集、大量的训练数据和昂贵的计算基础设施，而且这很可能需要通过签约来实现，这就造成了一些额外的障碍。即使美国防部能够开发内部培训，使其军事人员达到行业标准，也很难让他们穿上军装。因此，承包商是最可行的选择，但由于他们需要获得适当的许可，因此会造成额外的障碍。确保合同不包含允许保留数据的漏洞至关重要，因为人工智能公司会设法保留以前客户的培训数据副本，因为这些数据很有价值。审查合同不仅需要严格的技术和法律审查，而且对承包商的监控也需要积极主动的取证工作，以确保不会意外或以其他方式保留数据。鉴于没有为较高分类级别的工作租用计算机设备的选择，这些法律硕士的硬件必须购买。

明确 LLM 的范围对于管理预期至关重要，尤其是并非每个流程都能从人工智能的使用中切实受益。鉴于产出可能因目的不同而完全不同，即使它们的名称相同，也必须根据特定任务定制 LLM。例如，网络任务的 "规划文件 "与轰炸任务的 "规划文件 "在内容、结构、术语和措辞上都会有所不同。接受过各种 "规划文件 "培训的 LLM 可能会选择不正确的格式，甚至将不同格式拼凑成不适合任何单元的文件。然而，虽然缩小范围可以使人工智能更好地适应特定目的，但也可能限制可用训练材料的数量。鉴于军事规划的深奥性，需要大量的训练数据才能让 LLM 思考正确，而不仅仅是听起来正确。这种人工智能自动化也可能无助于战争的上层和下层。一名作战人员不会想向一个聊天应用询问在交火中欺骗对手的想法。同时，审议政策和战略的缓慢节奏也限制了 LLM 在生成速度方面的主要优势。相反，它最适合工作人员的工作，尤其是在行动层面。

训练和评估 LLM 和其他类型的人工智能的最佳方式是通过迭代改进循环，对人工智能产生的输出结果进行反复评估。如果语法和写作风格是唯一的参数，那么这些改进循环可以迅速完成。不过，虽然 LLM 可以轻松地编写出足够好的短文，如诗歌或简短的电子邮件，但当需要编写较长的文件时，它们更容易产生幻觉。由于军事用途对文件内容和准确性的依赖比对语法或文体的依赖更为关键，这些提炼循环可能会更加费力。细化循环需要一定的专业知识、研究或实验，以防止产生逼真但错误的输出。由于此类测试需要耗费大量精力，因此细化循环可能是训练军用 LLM 的最大限制因素。

在军队中使用 LLM 并非没有风险和困难。有缺陷或不足的训练数据、人工智能对齐、不适当的信任校准、人类的自满情绪、模型盗窃和模型滥用等问题都可以.... 数据量、种类、速度、真实性和价值方面的不足会增加不同的风险。数量少的数据集可能会导致过度拟合，因为在面对现实世界的混乱时，LLM 只有很少的两个参考点，而缺乏多样性则可能产生等同于群体思维的现象。如果建立数据集的速度不够快，成本就会增加，项目进度也会放缓。同时，真实性和价值不高的数据容易给LLM带来错误的教训。此外，也很难证明 LLM 符合人类的价值观。深度学习视角下的对齐问题为讨论对齐风险提供了一个有用的三部分框架：

所谓 "情境感知奖励黑客"，是指人工智能在训练（与运行）中表现出不同的行为，从而看起来更符合评估标准。宝马的排放丑闻就是这种一致性风险的人类类比。
"内部表示目标不一致 "是指人工智能从人类意图中误解了自己的目的。例如，"采摘西红柿 "可能会被误解为 "收集鲜红的物体"；这在实践中仍然可以很好地发挥作用，但也可能导致 "西红柿丰收 "的结果是瓶盖和瓢虫。
"部署过程中的权力寻租 "是一种风险，因为许多目标都隐含着权力寻租，而这在培训过程中可能不会被发现。尼克-博斯特罗姆（Nick Bostrom）著名的 "回形针最大化 "思想实验设想，人工智能的任务是创造 "大量回形针"。它通过控制越来越多的材料和制造能力来实现这一目标，同时抵制人类尽量减少回形针生产的努力，最终将宇宙中的所有材料（包括人类）转化为回形针。

考虑到这三种潜在风险，人在回路是最好的保险措施，但并非万无一失。相反，人类还必须对 LLM 保持谨慎的信任和不信任。如果人类对 LLM 信任度不够，那么 LLM 很可能会效率低下。然而，如果人类过于信任 LLM，或者信任 LLM 去做它没有能力处理的事情，就会产生更大的风险。LLM 可能会成为那些缺乏适当训练或技能的人的拐杖，当 LLM 的幻觉产生危险、虚假的信息（例如，建议对目标清单上没有的目标进行 OIE）或不适当地强化对压力过大的人类有吸引力的想法（例如，切断一个同时包含叛乱总部和平民医院的城区的电力）时，就会产生危险的情景。LLM 可能会带来安全风险，因为它们可能包含大量信息。尽管逆向工程人工智能模型仍是一门不成熟的艺术，但这一领域却有着巨大的发展潜力。最后，人类用户有可能滥用 LLM，最有效的形式是将行动循环自动化或将人类从某些循环中移除。理性的行为者有理由理解这一点，不会自动执行我们都会感到遗憾的程序（如 "天网 "的 C2 和火力控制）。不过，不法行为者或急于获得不对称优势的人可能会以不同的方式评估风险。

结论是，LLMs 值得立即研究并应用于大多数常规军事任务，包括保密和非保密任务。有了训练有素、在线、持续更新的 LLM，再加上适当的用户输入，绩效报告、每日行动更新 PowerPoint、情报报告和其他无数任务都可以在几分钟或几小时内完成，而不是几天或几周，每周可为整个国防部节省数百万工时。至于人工智能是否能独立地、灾难性地运行，我们认为可以，在我们有生之年可以，但不能在我们的军队中运行。

参考来源：U.S. AIR UNIVERSITY

成为VIP会员查看完整内容