在飞速发展的人工智能(AI)领域,大型语言模型(LLM)在理解和生成自然语言方面展现出了前所未有的能力。然而,它们在专业领域的能力,尤其是在复杂和跨学科的系统工程领域的能力,仍然较少被探索。本文介绍了 SysEngBench,这是一个新颖的基准,专门用于在系统工程概念和应用的背景下评估大型语言模型。SysEngBench 将包含一整套源自核心系统工程流程的任务,包括需求分析、系统架构设计、风险管理和利益相关者沟通。SysEngBench 利用各种真实世界和合成生成的场景,旨在评估大型语言模型解释复杂工程问题和生成创新解决方案的能力。
利用 SysEngBench 对大型语言模型进行的评估揭示了他们在系统工程背景下的现有能力和局限性。这些发现为今后的研究和开发提出了建议,旨在提高大型语言模型在系统工程学科中的实用性。SysEngBench 有助于理解人工智能对系统工程的潜在影响。
为 SysEngBench 选择的框架是一个简单的多选题基准。该基准目前涵盖系统工程入门,但将扩展到未来工作中讨论的系统工程子领域。
所使用的数据来源包括海军研究生院 SE 3100 课程的幻灯片。该课程的教学大纲包括学习该课程后获得的以下知识:
定义系统工程,包括其目的和范围以及系统工程师的角色。
定义系统架构,包括其目的和范围以及系统架构师的角色。
在系统的整个生命周期中恰当地应用系统工程流程的基本要素。
根据用户需求和操作目标,提出、阐述和记录系统要求;将其转化为技术要求。
创建反映利益相关者目标的系统价值层次。
使用 IDEF0、FFBD 等建模工具和其他技术完成系统功能分析,以支持需求工程。
开发、评估和记录备选系统架构。整个课程中的一项补充性共同努力将是获得对国防部(DoD)系统工程应用的共同理解。
多选题是在一些人工智能辅助下创建的,但每道题都由人类系统工程师对半合成数据集的正确性进行审查。更复杂的问题将考察大型语言模型在系统工程的 "灰色 "范围内进行推理的能力,特别是在有多种配置可以满足要求的高维交易空间。