本文探讨了自动语音识别(ASR)和大语言模型(LLM)在军事通信背景下的集成,特别关注瑞典武装部队的火力呼叫(CFF)程序。目的是评估基于人工智能的系统是否能在作战环境中支持口头指挥与控制(C2)信息的转录和结构化。研究利用 OpenAI 的 Whisper 模型进行 ASR,并使用一个轻量级 LLM 进行解析,开发了一个原型系统,用于转录无线电式语音指令并生成结构化的、机器可读的报告。该系统使用特定领域数据集进行评估,该数据集包含在嘈杂环境下录制的母语和非母语英语指令,并通过来自国防领域利益相关者的迭代反馈进行改进。结果表明,尽管 Whisper 模型在初始状态下表现良好,但在处理带口音的语音、数字精度和专业术语方面仍存在挑战。本研究应用了梯次化设计科学研究(eDSR)方法,并贡献了一个功能性原型以及一套用于国防领域 AI 集成的社会技术设计原则。研究结果证明了 ASR-LLM 流程在高风险领域的可行性,并强调了在未来任务关键型军事系统中部署时需考虑的要素。
关键词:语音识别,Whisper,人工智能,军事通信,火力呼叫,语言模型,原型,梯次化设计科学研究
本文旨在为该团未来 C2 系统内的火力呼叫(CFF)生成初步需求、初始设计知识、经过验证的概念验证原型以及可作为 AI 参谋支持(Stabsstöd)能力的人工制品的性能证据。该制品是一个 AI 驱动的任务摘要工具,在下文的研究问题中为简洁起见统称为“该制品”。在此背景下,“摘要”并非指缩短文本,而是指将任务相关的语音通信自动结构化和记录成机器可读的报告。
研究问题及其解答路径如下:
在与瑞典国防物资管理局(FMV)的初步讨论中,确定 FMV 目前缺乏基于证据的知识来判断 AI 是否能在满足以下严格军事标准的同时用于支持作战:
因此,本文的作用是填补这三个具体的知识空白,以便 FMV 更好地理解未来如何应用这项技术。这将产生基于定性数据的基准数据和设计指南,为 FMV 关于未来 AI 决策支持系统的 AI 路线图提供信息。