《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告 - 专知VIP

会员服务 ·

22

AI与军事 · 系统工程 · 大型语言模型 · 美国海军研究生院 ·

2024 年 6 月 30 日

《SysEngBench：评估系统工程中大型语言模型的新基准》美海军最新报告

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在飞速发展的人工智能（AI）领域，大型语言模型（LLM）在理解和生成自然语言方面展现出了前所未有的能力。然而，它们在专业领域的能力，尤其是在复杂和跨学科的系统工程领域的能力，仍然较少被探索。本文介绍了 SysEngBench，这是一个新颖的基准，专门用于在系统工程概念和应用的背景下评估大型语言模型。SysEngBench 将包含一整套源自核心系统工程流程的任务，包括需求分析、系统架构设计、风险管理和利益相关者沟通。SysEngBench 利用各种真实世界和合成生成的场景，旨在评估大型语言模型解释复杂工程问题和生成创新解决方案的能力。

利用 SysEngBench 对大型语言模型进行的评估揭示了他们在系统工程背景下的现有能力和局限性。这些发现为今后的研究和开发提出了建议，旨在提高大型语言模型在系统工程学科中的实用性。SysEngBench 有助于理解人工智能对系统工程的潜在影响。

SysEngBench框架

为 SysEngBench 选择的框架是一个简单的多选题基准。该基准目前涵盖系统工程入门，但将扩展到未来工作中讨论的系统工程子领域。

所使用的数据来源包括海军研究生院 SE 3100 课程的幻灯片。该课程的教学大纲包括学习该课程后获得的以下知识：

定义系统工程，包括其目的和范围以及系统工程师的角色。
定义系统架构，包括其目的和范围以及系统架构师的角色。
在系统的整个生命周期中恰当地应用系统工程流程的基本要素。
根据用户需求和操作目标，提出、阐述和记录系统要求；将其转化为技术要求。
创建反映利益相关者目标的系统价值层次。
使用 IDEF0、FFBD 等建模工具和其他技术完成系统功能分析，以支持需求工程。
开发、评估和记录备选系统架构。整个课程中的一项补充性共同努力将是获得对国防部（DoD）系统工程应用的共同理解。

多选题是在一些人工智能辅助下创建的，但每道题都由人类系统工程师对半合成数据集的正确性进行审查。更复杂的问题将考察大型语言模型在系统工程的 "灰色 "范围内进行推理的能力，特别是在有多种配置可以满足要求的高维交易空间。

成为VIP会员查看完整内容

49

相关内容

AI与军事

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

专知会员服务

56+阅读 · 2024年7月1日

《大型语言模型 (LLM) 对比研究》美海军最新报告

《大型语言模型 (LLM) 对比研究》美海军最新报告

专知会员服务

80+阅读 · 2024年6月28日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

120+阅读 · 2024年6月13日

《基于模型的辅助深度学习：用于自适应弹性目标跟踪和电磁干扰（EMI）识别》美空军最新报告

《基于模型的辅助深度学习：用于自适应弹性目标跟踪和电磁干扰（EMI）识别》美空军最新报告

专知会员服务

30+阅读 · 2023年9月7日

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

专知会员服务

33+阅读 · 2023年6月24日

《多模态传感器融合与深度学习》美海军研究实验室19页报告

《多模态传感器融合与深度学习》美海军研究实验室19页报告

专知会员服务

110+阅读 · 2023年4月1日

《基于数据包络分析对F22任务能力率和出动架次输出进行基准测试》美空军2022最新37页论文

《基于数据包络分析对F22任务能力率和出动架次输出进行基准测试》美空军2022最新37页论文

专知会员服务

20+阅读 · 2022年12月19日

《战士和战争算法：利用人工智能实现伦理目标》美海军战争学院67页技术报告

《战士和战争算法：利用人工智能实现伦理目标》美海军战争学院67页技术报告

专知会员服务

36+阅读 · 2022年12月18日

《自主系统的组成分析》美空军2022最新报告

《自主系统的组成分析》美空军2022最新报告

专知会员服务

55+阅读 · 2022年12月6日

《基于强化学习开发战斗行为》美国海军研究生院

《基于强化学习开发战斗行为》美国海军研究生院

专知会员服务

96+阅读 · 2022年6月27日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

23+阅读 · 2022年11月24日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

30+阅读 · 2022年10月26日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

22+阅读 · 2022年10月24日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

47+阅读 · 2022年10月6日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

51+阅读 · 2022年9月25日

《机器人和自主系统-人工智能（RAS-AI）行动计划》澳大利亚皇家海军报告

《机器人和自主系统-人工智能（RAS-AI）行动计划》澳大利亚皇家海军报告

专知

19+阅读 · 2022年9月14日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

57+阅读 · 2022年9月7日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

57+阅读 · 2022年8月25日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

44+阅读 · 2022年6月2日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

UXT 在发育中的新功能以及相关作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于CP-OFDM发射波形的目标检测算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习模型的海上溢油监测及油膜相对厚度估计研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于语义推理的船舶舱室布置进化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

大型语言模型

美国海军研究生院

相关VIP内容

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

《基于生成式人工智能修改和查询 MBSE 模型》美海军最新报告

专知会员服务

56+阅读 · 2024年7月1日

《大型语言模型 (LLM) 对比研究》美海军最新报告

《大型语言模型 (LLM) 对比研究》美海军最新报告

专知会员服务

80+阅读 · 2024年6月28日

《将大型语言模型（LLM）整合到海军作战规划中》

《将大型语言模型（LLM）整合到海军作战规划中》

专知会员服务

120+阅读 · 2024年6月13日

《基于模型的辅助深度学习：用于自适应弹性目标跟踪和电磁干扰（EMI）识别》美空军最新报告

《基于模型的辅助深度学习：用于自适应弹性目标跟踪和电磁干扰（EMI）识别》美空军最新报告

专知会员服务

30+阅读 · 2023年9月7日

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

自动空中加油《用深度学习技术来估计立体图像中的3D位置》美空军94页论文

专知会员服务

33+阅读 · 2023年6月24日

《多模态传感器融合与深度学习》美海军研究实验室19页报告

《多模态传感器融合与深度学习》美海军研究实验室19页报告

专知会员服务

110+阅读 · 2023年4月1日

《基于数据包络分析对F22任务能力率和出动架次输出进行基准测试》美空军2022最新37页论文

《基于数据包络分析对F22任务能力率和出动架次输出进行基准测试》美空军2022最新37页论文

专知会员服务

20+阅读 · 2022年12月19日

《战士和战争算法：利用人工智能实现伦理目标》美海军战争学院67页技术报告

《战士和战争算法：利用人工智能实现伦理目标》美海军战争学院67页技术报告

专知会员服务

36+阅读 · 2022年12月18日

《自主系统的组成分析》美空军2022最新报告

《自主系统的组成分析》美空军2022最新报告

专知会员服务

55+阅读 · 2022年12月6日

《基于强化学习开发战斗行为》美国海军研究生院

《基于强化学习开发战斗行为》美国海军研究生院

专知会员服务

96+阅读 · 2022年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

23+阅读 · 2022年11月24日

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

《数字孪生仿真赋能要素及其在国防领域信息优势中的应用》2022最新16页技术报告，北约STO

专知

30+阅读 · 2022年10月26日

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

《开发新型飞行器数字孪生原型的框架》北约科学与技术组织2022最新14页技术报告

专知

22+阅读 · 2022年10月24日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

47+阅读 · 2022年10月6日

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

《人工智能开发的严谨度》美国海军空战中心武器部 2022最新71页报告

专知

51+阅读 · 2022年9月25日

《机器人和自主系统-人工智能（RAS-AI）行动计划》澳大利亚皇家海军报告

《机器人和自主系统-人工智能（RAS-AI）行动计划》澳大利亚皇家海军报告

专知

19+阅读 · 2022年9月14日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

57+阅读 · 2022年9月7日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

57+阅读 · 2022年8月25日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

44+阅读 · 2022年6月2日

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器翻译新时代：Facebook 开源无监督机器翻译模型和大规模训练语料

机器学习研究会

12+阅读 · 2017年12月24日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

UXT 在发育中的新功能以及相关作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于CP-OFDM发射波形的目标检测算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习模型的海上溢油监测及油膜相对厚度估计研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

基于语义推理的船舶舱室布置进化设计方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于机器学习的人脑MR图像结构区域层次化自动标记方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

146+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员