近年来,渊亭科技积极参与行业内大模型的各项能力评估建设,取得了突出成果。作为国内最早从事军事大模型建设的企业之一,渊亭科技凭借在军事智能化领域的深厚积累,重磅推出《军事大模型评估体系白皮书》。
**
**
**
**
白皮书全面地梳理了军事大模型能力评估的行业特殊性和关注要素,并按照评估框架、评估标准、评估手段、评估数据、评估工具、评估平台等6大方向,系统性阐述了军事大模型评估过程中的最佳实践,预期能为行业内开展军事大模型的能力评估提供体系化的参考。
其中,评估框架以架构能力、基础能力、平台能力、应用能力、安全能力等5大能力为基石,深入探讨了大模型评估的具体方法。
**架构能力:**围绕大模型应用系统,在准确性、健壮性、兼容性;可解释、可评估、可伸缩;高扩展、高可用、高运维角度进行全面阐述。
**基础能力:**通用基础能力集成行业主流的通用评估方法,军事基础能力提供针对军事特性的领域评估手段。通过贯通评测任务构建-评测执行-评测结果分析-评测报告生成,定义高度自动的基础能力评估工具集。
**平台能力:**针对大模型开发、训练和部署基础平台,对数据生成、开发训练、应用编排、会话管理等关键能力进行全面性和效果评估。
**应用能力:**提炼强敌研究、指挥作战、装备研制、训练管理、联勤保障等方向的典型应用场景,定义针对场景的标准评估手段,结合业务特性快速实施评估。
**安全能力:**设计面向对抗攻击、内容伪造、数据泄露等方向的评估手段,综合评估大模型的安全性和可靠性。