本研究展示了一款专为美海军陆战队后勤定制的文本至结构化查询语言(SQL)系统的开发与实施,该系统充分利用了已获验证的大语言模型(LLM)能力。通过在精选的全球战斗支援系统-海军陆战队供应与维护数据集上对开源LLM进行微调,证明了非技术用户如何通过自然语言查询直观地与海军陆战队数据交互,从而提升数据可访问性与作战决策能力。方法基于资源受限环境假设,证明了在单张英伟达A100图形处理器(GPU)上完成模型微调与部署不仅可行,更凸显了本地或边缘人工智能(AI)解决方案的潜力。进一步指出了高质量、具代表性数据集的至关重要性,并提出结合提示工程与微调的混合方法以提升性能。研究最终为海军陆战队在数据治理、AI整合及人才发展方面提出了具体建议。
海军陆战队认识到在数字领域获得对敌不对称优势的迫切性[1]。其最新发布的人工智能(AI)战略承认并强调数据与新兴技术加速决策与作战效能的变革力量。这些进步使海军陆战队能够比对手更智能地作战,更快速可靠地闭合杀伤链[1]。AI被认定为能显著改进海军陆战队训练、规划与作战方式的技术之一。
尽管AI在所有作战职能领域都存在应用机遇,但后勤领域因数据结构与可用性而成为创新成熟区。后勤被确定为作战的“步调功能”,“后勤最能决定作战节奏与部队作战半径。没有其他作战职能能如此深刻地影响在对抗环境中持续作战的能力[2]”。
贡献:以实现数据扩散化为目标,研究利用已验证的开源大语言模型(LLM)能力,开发了专为海军陆战队后勤定制的文本至结构化查询语言(SQL)系统。工作提供了一个可操作的模型,展示海军陆战队如何实际利用AI最新进展以增强数据驱动决策与作战效能。将贡献与见解总结如下:
方法与实施:
• 工作内容:开发了一套文本至SQL系统,使用户能以直观方式有效与海军陆战队数据“对话”。为此,构建了一个定制数据集,用以对开源LLM进行专门微调,使其能将自然语言文本转换为涉及海军陆战队供应与维护数据的SQL查询。生成的SQL查询在数据库中自动执行并返回用户,证明通过本系统任何人员无论技术能力如何,都能利用MDR中的海量数据做出数据驱动决策。
• 实证成果:工作证明了在资源受限环境中高效微调LLM的可行性。仅使用单张英伟达A100图形处理器(GPU),凸显了在本地或模拟边缘环境部署基于LLM解决方案的可行性。
• 研究发现:高质量且能反映真实世界提示复杂性与多样性的数据集对模型性能有显著影响。开发这种准确、全面且相关的数据集是人工密集型过程。借助其他生成式AI模型生成合成数据的尝试仍需要一定程度的人工监督。此外,观察到采用提示工程与微调相结合的混合方法处理文本至SQL任务,相比单一策略能提升性能。
对海军陆战队的建议:
• 投入资源开发维护高质量数据集,因为除非数据达到[3]所述训练质量数据集标准,否则海量数据价值有限。为有效利用可用数据,必须对其进行系统化标记、编目和存储。此外,当与其他数据源集成合并时,组合数据也需标记、编目和存储。鉴于数据是决定AI效能的最重要组成部分,海军陆战队必须持续优先推进合理的数据战略与治理实践。
• 考虑将微调开源LLM作为成本效益方案,以快速开发并将AI能力整合至组织。凭借合适的数据,可通过微调与提示工程技术定制LLM及其他AI工具,以满足海军陆战队特定需求。
• 持续投入海军陆战队员与文职人员教育,使其能开展研究并紧跟AI领域快速发展。通过提升人员技能并合理调整其角色以发挥技术能力,将获得更大作战优势,使海军陆战队能适应未来挑战。