在飞速发展的人工智能(AI)领域,大型语言模型(LLM)在理解和生成自然语言方面展现出了前所未有的能力。然而,它们在专业领域的能力,尤其是在复杂和跨学科的系统工程领域的能力,仍然较少被探索。本文介绍了 SysEngBench,这是一个新颖的基准,专门用于在系统工程概念和应用的背景下评估大型语言模型。SysEngBench 将包含一整套源自核心系统工程流程的任务,包括需求分析、系统架构设计、风险管理和利益相关者沟通。SysEngBench 利用各种真实世界和合成生成的场景,旨在评估大型语言模型解释复杂工程问题和生成创新解决方案的能力。

利用 SysEngBench 对大型语言模型进行的评估揭示了他们在系统工程背景下的现有能力和局限性。这些发现为今后的研究和开发提出了建议,旨在提高大型语言模型在系统工程学科中的实用性。SysEngBench 有助于理解人工智能对系统工程的潜在影响。

SysEngBench框架

为 SysEngBench 选择的框架是一个简单的多选题基准。该基准目前涵盖系统工程入门,但将扩展到未来工作中讨论的系统工程子领域。

所使用的数据来源包括海军研究生院 SE 3100 课程的幻灯片。该课程的教学大纲包括学习该课程后获得的以下知识:

  • 定义系统工程,包括其目的和范围以及系统工程师的角色。

  • 定义系统架构,包括其目的和范围以及系统架构师的角色。

  • 在系统的整个生命周期中恰当地应用系统工程流程的基本要素。

  • 根据用户需求和操作目标,提出、阐述和记录系统要求;将其转化为技术要求。

  • 创建反映利益相关者目标的系统价值层次。

  • 使用 IDEF0、FFBD 等建模工具和其他技术完成系统功能分析,以支持需求工程。

  • 开发、评估和记录备选系统架构。整个课程中的一项补充性共同努力将是获得对国防部(DoD)系统工程应用的共同理解。

多选题是在一些人工智能辅助下创建的,但每道题都由人类系统工程师对半合成数据集的正确性进行审查。更复杂的问题将考察大型语言模型在系统工程的 "灰色 "范围内进行推理的能力,特别是在有多种配置可以满足要求的高维交易空间。

成为VIP会员查看完整内容
22

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
《大型语言模型 (LLM) 对比研究》美海军最新报告
《自主系统的组成分析》美空军2022最新报告
专知会员服务
51+阅读 · 2022年12月6日
《基于强化学习开发战斗行为》美国海军研究生院
专知会员服务
86+阅读 · 2022年6月27日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
32+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
142+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
351+阅读 · 2023年3月31日
Arxiv
59+阅读 · 2023年3月26日
Arxiv
125+阅读 · 2023年3月24日
Arxiv
18+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
32+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员