《军事大模型评估体系白皮书》

近年来，渊亭科技积极参与行业内大模型的各项能力评估建设，取得了突出成果。作为国内最早从事军事大模型建设的企业之一，渊亭科技凭借在军事智能化领域的深厚积累，重磅推出《军事大模型评估体系白皮书》。

白皮书全面地梳理了军事大模型能力评估的行业特殊性和关注要素，并按照评估框架、评估标准、评估手段、评估数据、评估工具、评估平台等6大方向，系统性阐述了军事大模型评估过程中的最佳实践，预期能为行业内开展军事大模型的能力评估提供体系化的参考。

其中，评估框架以架构能力、基础能力、平台能力、应用能力、安全能力等5大能力为基石，深入探讨了大模型评估的具体方法。

**架构能力：**围绕大模型应用系统，在准确性、健壮性、兼容性；可解释、可评估、可伸缩；高扩展、高可用、高运维角度进行全面阐述。

**基础能力：**通用基础能力集成行业主流的通用评估方法，军事基础能力提供针对军事特性的领域评估手段。通过贯通评测任务构建-评测执行-评测结果分析-评测报告生成，定义高度自动的基础能力评估工具集。

**平台能力：**针对大模型开发、训练和部署基础平台，对数据生成、开发训练、应用编排、会话管理等关键能力进行全面性和效果评估。

**应用能力：**提炼强敌研究、指挥作战、装备研制、训练管理、联勤保障等方向的典型应用场景，定义针对场景的标准评估手段，结合业务特性快速实施评估。

**安全能力：**设计面向对抗攻击、内容伪造、数据泄露等方向的评估手段，综合评估大模型的安全性和可靠性。

成为VIP会员查看完整内容

138

203

相关内容

AI与军事

关注 1295

人工智能在军事中可用于多项任务，例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。

《2024低空智联网技术体系白皮书》

专知会员服务

72+阅读 · 2024年7月4日

《计算机辅助军事实验》

专知会员服务

45+阅读 · 2024年2月5日

《用于战斗支援的自动化和自主系统：范围研究和技术优先次序》100页报告

专知会员服务

60+阅读 · 2023年12月26日

《数字孪生对提高军事供应链弹性的战略作用》中文版（2023最新报告）

专知会员服务

69+阅读 · 2023年7月9日

《支持大规模作战行动的战术反情报工作》

专知会员服务

33+阅读 · 2023年5月28日

军事领域体系结构研究综述

专知会员服务

135+阅读 · 2023年4月27日

美空军《空军全球未来报告：2040 年的联合功能》2023最新45页报告

专知会员服务

104+阅读 · 2023年4月15日

《军事背景下能力规划的概念模型》

专知会员服务

153+阅读 · 2023年3月28日

《人工智能和自主系统的测试与评估：综述》美国国防分析研究所，177页报告

专知会员服务

192+阅读 · 2023年3月6日

《管理复杂问题：陆军设计方法和战略思维研究综述》美国陆军46页研究报告

专知会员服务

59+阅读 · 2022年10月10日

《基于军事能力规划的计算机辅助兵棋推演》18页论文，北约总部盟军最高指挥官转型

专知

36+阅读 · 2022年10月16日

《机器人和自主系统-人工智能（RAS-AI）行动计划》澳大利亚皇家海军报告

专知

19+阅读 · 2022年9月14日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

61+阅读 · 2022年8月25日

《无人机系统中的人类系统集成指南》加拿大国防研究和发展部64页报告

专知

49+阅读 · 2022年8月11日

英国国防部发布《国防能力框架》报告，51页pdf

专知

35+阅读 · 2022年8月2日

深度学习研究及军事应用综述

专知

28+阅读 · 2022年7月7日

【AI+军事】数字孪生国防白皮书, 96页pdf

专知

31+阅读 · 2022年4月6日

《机器学习技术及其在国防和安全中的应用》加拿大国防部发布（海上探测和监视、对抗ML），76页pdf

专知

25+阅读 · 2022年4月1日

DARPA的“疯狂”概念，就要实现！美国无人集群城市作战应用发展综述

THU数据派

35+阅读 · 2020年10月1日

【CAAI】中国人工智能创新应用白皮书（附pdf下载）

专知

11+阅读 · 2017年11月29日

非常规突发事件应急管理集成方法研究

国家自然科学基金

9+阅读 · 2016年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

11+阅读 · 2015年12月31日

面向村镇地方建造的体系化表皮设计方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

核心企业领导力及在技术创新战略联盟中的作用机理研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向军事情报的多媒体大数据分析与展示

国家自然科学基金

40+阅读 · 2014年12月31日

碳约束下基于行为的供应链最优决策和协调机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向网络中心战的动态火力分配问题研究

国家自然科学基金

47+阅读 · 2013年12月31日

不确定环境下基于HTN的应急任务规划方法研究

国家自然科学基金

15+阅读 · 2012年12月31日

支持多信息融合的装备体系作战效能评估方法研究

国家自然科学基金

36+阅读 · 2008年12月31日

Laplace-based strategies for Bayesian optimal experimental design with nuisance uncertainty

Arxiv

0+阅读 · 2024年7月9日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

86+阅读 · 2023年4月4日

A Survey of Large Language Models

Arxiv

492+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日