美国白宫新颁布关于人工智能的行政命令要求建立人工智能评估生态系统,以在整个军队(包括太空军)推广生成式人工智能奠定基准。

国防部门应当持续评估源自生成式人工智能的情报产品。作战人员需要以类似驾驶者控制汽车的方式来看待生成式人工智能的运作。商业领域的大型语言模型供应商正按照国防部门预期工作构建安全与质量控制体系。

一年前,美国防部宣布与ScaleAI达成协议,将人工智能基准测试引入军队。

作战人员此刻就需要在战术层面获得这些能力。若将生成式人工智能交予那些未持续维护大语言模型输出质量的“无证”团队操作,该系统必将偏离正轨并彻底失效——正如缺乏维护的车辆注定故障频发。

避免失误

缺乏战术层面质量控制的不可靠人工智能输出可能导致有缺陷的情报评估,从而在对抗环境中引发战略误判与非预期局势升级。

为何使用生成式人工智能时评估与基准测试至关重要?不可靠的人工智能将危及任务成功与人员安全。评估与基准测试不仅关键——对于生成式人工智能系统的操作完整性与可靠性而言,它们是不可妥协的要素。若缺乏持续测试以及与既定标准的严格比对,这些模型的输出在得到验证前均不可信任——尤其对于精度至关重要的任务而言。未能持续评估其性能将必然导致系统退化。这将使强大工具转化为可能为关键军事行动带来灾难性错误的负担。这种全面且严格的审查不仅是最佳实践——更是获取并保持决定性优势的基本要求,以防止可能让我们付出一切代价的战略脆弱性。

需要明确的是,由于没有任何整体评估系统能涵盖所有持续演变的战术任务用例,质量保障需要融入操作员规划与执行近距离机动的流程。即时工程是目前实现这一目标的最佳工具。当由领域专家在小队行动层面明智运用时,它能在评估生态系统中克服大型语言模型的问题。

国防部门已在依赖生成式人工智能与大型语言模型。但当大型语言模型更新时会发生什么?操作员如何评估使用新模型是否能提供与旧版本模型成果相同的精度与准确度?操作员如何知晓自己是否在一段时间内维持了质量响应?

健全的评估生态系统可解决这些挑战。但当卫士们将其生成式人工智能工作操作化时,自然语言处理与人工智能工作的基准测试在战术层面大多缺失。

存在一种可创建可行、高效且低成本解决方案的方法,以在使用大型语言模型时评估与保持成果一致性。事实上,由于军事垂直数据的多样性与特性,将其外包给第三方确实具有挑战性:当紧贴收集情报的领域专家团队时,其效果最佳。这些是军队能在内部培养并运用于整个国防部门的技能。

基本计划

为保持操作完整性并确保从大规模大型语言模型驱动数据摄取中获取可执行洞察,小型团队应指定一名操作员担任“质量保障哨兵”。“质量保障哨兵”这几个字准确体现了对质量保持警惕并确保其维持不变的职责。在公司中,质量保障哨兵被称为搜索分析师或洞察分析师。此人在战术层面充当提示性能、模型可靠性及输出保真度的核心权威。质量保障哨兵负责对生成式人工智能输出进行端到端监督,并确保偏移、退化或幻觉不会损害关键任务情报产品。

质量保障哨兵无需精通算法,但应对自身工作领域有出色把握。若他们专注于光谱测定数据,则应能分辨所查看数据是电离层数据还是重力测量数据。若负责导航工作,那么期望他们能识别两行元素集。作为质量保障哨兵的新任务是对模型进行二次猜测与监督,因此他们必须是该领域的专家。这是将此类细分但关键的任务外包给第三方可能并非好主意的重要原因。

质量保障哨兵的首要职责是为生成式人工智能用例建立基线操作框架。无论是文档摘要、信号提取、情报融合还是情感分诊,所有任务均应明确界定成功标准。此过程可能需要数周,因为质量保障哨兵需与主管及团队成员商讨如何定义成功任务。这包括事实准确性、延迟与幻觉率等硬性指标,以及相关性、清晰度与语调等软性指标。

质量保障哨兵维护主“评估控制表”,跟踪所有模型交互、输入、输出与分数,该表实行版本控制并对整个团队开放。评估控制表可简易电子表格形式存在。评分可由团队临时创建。若目标是降本增效,则无需巨额花费。

随后,质量保障哨兵构建代表关键任务场景的静态测试集(每个用例约20-50个样本)。该测试集定期运行或在模型或提示更新时运行。质量保障哨兵执行不同模型变体(如GPT-4o对比Claude 3)的A/B测试,并依据预定指标对响应评分。所有模型行为、提示结构或性能退化的变化均应记录并处理。质量保障哨兵应不断自问:“与之前相比有何变化?输出质量是改善还是恶化?”

为防止提示偏移并保持配置控制,质量保障哨兵在版本控制(Git或等效系统)下维护集中式提示存储库。每个提示编辑、模型参数变更与输出偏差均应记录在案。质量保障哨兵标记异常并在输出质量下降时执行回滚。在商业领域,该存储库是宝贵知识产权,迅速成为从看似分散数据中提炼价值的秘密配方。

偏移与异常通过每用例简明的红/黄/绿状态指示符跟踪。质量保障哨兵主持每周“质量保障站会”,提交关于大型语言模型性能的态势报告。这些向团队成员与领导的简报确保团队其余人员清晰了解哪些操作可行、哪些需要重新校准。

质量保障哨兵还建立并维护经验教训存储库,以捕捉模型行为特性、有效提示策略与既往故障。这可采用简易电子表格或持续更新的文本文档。重要的是,这将成为机构知识,确保持续生存能力与可重复性,即使在人员更替或高操作节奏下亦然。若电子表格过于简陋,且可轻松获取高端平台订阅,则SharePoint或Confluence是该存储库的理想位置。

质量保障哨兵还应尝试推动每个模型的边界,尤其是现成商业模型。“商业护栏在某些军事场景中既不必要甚至危险”,因此质量保障哨兵应理解如何突破大型语言模型的隐喻性转速限制。设想团队参与信息战需要模型输出本被视为不安全的数据,或网络中队希望输入恶意代码以快速发现模式或痕迹的场景。质量保障哨兵应通过红队测试理解如何突破这些限制。

团队其余成员则专注于摄取、标注与探索性分析,而质量保障哨兵充当情报分发或用于决策循环前的最终守门人。所有用于简报、产品或分发的输出均需通过质量保障哨兵验证。卫士们可将其视作行动前的装备检查。

底线是:在小型生成式人工智能单元中,质量保障哨兵成为模型性能、提示规范与质量控制的标杆。这种去中心化但受控的结构使团队能够快速运作而不牺牲对输出的信任。团队行动迅速,但质量保障哨兵确保他们不会盲目行动。

在任何团队中使用质量保障哨兵有助于维持质量成果。随着资金与组织需求增长,可引入执行部分质量跟踪的第三方平台。但在缺乏这些工具时,质量保障哨兵是优异且低成本的角色补充。

未来展望

生成式人工智能在军队企业环境内具有更直接的应用场景。对于任务环境,这些系统依赖其他类型的人工智能,如计算机视觉、传感器融合、机器人技术与无人系统。但生成式人工智能正迅速成为这些其他人工智能领域的用户界面,因此借助来自提示工程与质量保障哨兵流程的经验,评估生态系统将扩展至这些其他领域。

质量保障哨兵提供的稳健基准测试通过向操作员提供高置信度输出而优化操作节奏,实现更快决策与更果断行动。它是商业人工智能工具包的重要组成部分,对军用物资也应如此。质量保障哨兵的角色终将被淘汰,并且毫不反讽的是,人工智能将取代它。届时,人工智能将在几乎无需人工干预或监督的情况下确保监控自身进展。它将成为未来算法战争构想中的又一齿轮。

但在那之前,对于受生成式人工智能输出影响、从事关键任务系统的小型团队,人类应当保持介入。

参考来源:War On The Rocks

成为VIP会员查看完整内容
1

相关内容

人工智能在军事中可用于多项任务,例如目标识别、大数据处理、作战系统、网络安全、后勤运输、战争医疗、威胁和安全监测以及战斗模拟和训练。
军队在战术边缘使用人工智能面临的挑战
专知会员服务
20+阅读 · 2024年11月17日
人工智能驱动的无人机战争:现代冲突中的技术优势
专知会员服务
50+阅读 · 2024年10月14日
人工智能与仿真协同增强军事决策支持能力
专知会员服务
65+阅读 · 2024年10月2日
人工智能与美国空军的未来
专知会员服务
47+阅读 · 2024年7月22日
生成式人工智能:塑造国防工业的现在与未来
专知会员服务
47+阅读 · 2024年6月8日
美陆军的人工智能新政策:引领大语言模型的未来
专知会员服务
82+阅读 · 2024年5月27日
生成人工智能如何改变军事行动
专知会员服务
63+阅读 · 2024年5月22日
人工智能在军事领域的应用和启示
专知会员服务
91+阅读 · 2024年1月13日
从规划到执行:人工智能在军事行动中的作用
专知会员服务
106+阅读 · 2023年9月22日
美国陆军希望人工智能能为士兵带来信息优势
专知会员服务
55+阅读 · 2023年9月21日
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【混合智能】有关军事混合智能的思考
产业智能官
14+阅读 · 2020年5月17日
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
【迁移学习】迁移学习在图像分类中的简单应用策略
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
Arxiv
69+阅读 · 2022年9月7日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
12+阅读 · 2019年2月19日
VIP会员
相关VIP内容
军队在战术边缘使用人工智能面临的挑战
专知会员服务
20+阅读 · 2024年11月17日
人工智能驱动的无人机战争:现代冲突中的技术优势
专知会员服务
50+阅读 · 2024年10月14日
人工智能与仿真协同增强军事决策支持能力
专知会员服务
65+阅读 · 2024年10月2日
人工智能与美国空军的未来
专知会员服务
47+阅读 · 2024年7月22日
生成式人工智能:塑造国防工业的现在与未来
专知会员服务
47+阅读 · 2024年6月8日
美陆军的人工智能新政策:引领大语言模型的未来
专知会员服务
82+阅读 · 2024年5月27日
生成人工智能如何改变军事行动
专知会员服务
63+阅读 · 2024年5月22日
人工智能在军事领域的应用和启示
专知会员服务
91+阅读 · 2024年1月13日
从规划到执行:人工智能在军事行动中的作用
专知会员服务
106+阅读 · 2023年9月22日
美国陆军希望人工智能能为士兵带来信息优势
专知会员服务
55+阅读 · 2023年9月21日
相关资讯
综述| 当图神经网络遇上强化学习
图与推荐
34+阅读 · 2022年7月1日
【KDD2020】动态知识图谱的多事件预测
专知
88+阅读 · 2020年8月31日
【混合智能】有关军事混合智能的思考
产业智能官
14+阅读 · 2020年5月17日
机器学习算法集锦:从贝叶斯到深度学习及各自优缺点
人工智能学家
11+阅读 · 2019年2月15日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
深度学习在推荐系统上的应用
架构文摘
13+阅读 · 2018年2月22日
【迁移学习】迁移学习在图像分类中的简单应用策略
机器学习必知的15大框架
云栖社区
16+阅读 · 2017年12月10日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
45+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
21+阅读 · 2009年12月31日
相关论文
微信扫码咨询专知VIP会员