军事机器学习设计：关于开发自动化任务摘要系统的梯次化设计科学研究

本文探讨了自动语音识别（ASR）和大语言模型（LLM）在军事通信背景下的集成，特别关注瑞典武装部队的火力呼叫（CFF）程序。目的是评估基于人工智能的系统是否能在作战环境中支持口头指挥与控制（C2）信息的转录和结构化。研究利用 OpenAI 的 Whisper 模型进行 ASR，并使用一个轻量级 LLM 进行解析，开发了一个原型系统，用于转录无线电式语音指令并生成结构化的、机器可读的报告。该系统使用特定领域数据集进行评估，该数据集包含在嘈杂环境下录制的母语和非母语英语指令，并通过来自国防领域利益相关者的迭代反馈进行改进。结果表明，尽管 Whisper 模型在初始状态下表现良好，但在处理带口音的语音、数字精度和专业术语方面仍存在挑战。本研究应用了梯次化设计科学研究（eDSR）方法，并贡献了一个功能性原型以及一套用于国防领域 AI 集成的社会技术设计原则。研究结果证明了 ASR-LLM 流程在高风险领域的可行性，并强调了在未来任务关键型军事系统中部署时需考虑的要素。

关键词：语音识别，Whisper，人工智能，军事通信，火力呼叫，语言模型，原型，梯次化设计科学研究

本文旨在为该团未来 C2 系统内的火力呼叫（CFF）生成初步需求、初始设计知识、经过验证的概念验证原型以及可作为 AI 参谋支持（Stabsstöd）能力的人工制品的性能证据。该制品是一个 AI 驱动的任务摘要工具，在下文的研究问题中为简洁起见统称为“该制品”。在此背景下，“摘要”并非指缩短文本，而是指将任务相关的语音通信自动结构化和记录成机器可读的报告。

研究问题及其解答路径如下：

社会技术方法如何能为军事背景下该制品的设计提供信息？
a. 此问题通过在该制品本身的设计和迭代开发过程中得到解答，并以利益相关者需求和作战约束为指导。
该制品的性能特征在多大程度上影响其在军事作战场景中的可靠性？
a. 此问题通过定量评估来回答，即在不同声学和语言条件下使用词错误率（WER）和字符错误率（CER）作为基准指标。
在该制品的开发和评估过程中，可以推导出哪些将 AI 集成到军事行动中的新兴设计原则？
a. 此问题通过对利益相关者访谈以及在演示和评估阶段收集的反馈进行主题分析来检验。

在与瑞典国防物资管理局（FMV）的初步讨论中，确定 FMV 目前缺乏基于证据的知识来判断 AI 是否能在满足以下严格军事标准的同时用于支持作战：