在一次试验性部署中,美军太平洋某部的海军陆战队不仅利用生成式AI收集情报,更实现情报解析。日常情报工作仅为初级应用。
去年大部分时间,美国海军陆战队第15远征队的约2,500名官兵乘坐三艘舰艇游弋太平洋,在韩国、菲律宾、印度及印尼海域开展训练演习。与此同时,舰载情报部门正进行一项开创性试验:负责整理境外情报、向高层预警潜在威胁的海军陆战队员,首次使用五角大楼资助的前沿生成式AI工具执行任务。
两名军官透露,他们借助新系统分析在驻地国搜集的数千条开源情报(包括非机密文章、报告、图像、视频),处理速度远超传统人工模式。例如,克里斯汀·恩泽瑙尔上尉使用大语言模型翻译并摘要外媒新闻;威尔·洛登上尉利用AI撰写呈交指挥层的每日与每周情报简报。
"我们仍需验证信源准确性,"洛登坦言。但该部指挥官鼓励大语言模型应用,因其"能在动态局势中显著提升效率"。
此次使用的生成式AI工具由国防科技企业Vannevar Labs研发。2023年11月,该公司获得五角大楼旗下"国防创新部门"价值9900万美元的生产合同,旨在将该技术推广至更多作战单位。这家由中情局及美情报界背景人士于2019年创立的公司,与Palantir、Anduril、Scale AI共同成为美军AI转型的领跑者——转型不仅涉及无人机与自动驾驶车辆等硬件技术,更涵盖革命性软件系统重构美军数据采集、管理与解析模式。
尽管美军自2017年"Project Maven"起持续开发计算机视觉识别模型等AI工具,但生成式AI(如Vannevar开发的类人化交互工具)应用仍属前沿突破。Vannevar集成OpenAI、微软等现有大语言模型及自主开发模型,分析其自2021年建立的庞大开源情报数据库。其数据采集规模超乎想象(亦是产品核心竞争力所在):每日在180个国家收集80种语言的TB级数据。
公司宣称可分析社交媒体账号,甚至穿透别国的网络防火墙获取稀缺信息。同时利用线下特工搜集的稀缺非机密数据,以及监测无线电波追踪非法航运的物理传感器报告。通过类ChatGPT的交互界面,Vannevar的AI模型实现即时翻译、威胁识别与舆情分析,为客户提供多维情报。
"公司核心使命是采集数据、解读书据、助力美国决策优化。"首席技术官斯科特·菲利普斯表示。
这种模式对美情报界极具吸引力。长期以来,海量数据超出人类分析极限,促成了估值超2000亿美元的帕兰泰尔公司崛起。2019年,Vannevar捕捉到大语言模型技术机遇,将AI从数据采集提升至交互式分析层次。
在太平洋部署中,Vanevar工具展现了实用价值。尽管恩泽瑙尔与洛登被要求始终人工复核AI输出,但他们表示未发现重大错误。恩泽瑙尔常用该工具跟踪外媒对其部队演习的报道,并执行情绪分析——识别文本中的情感倾向与观点导向。此类任务过往需全人工完成。
"过去纯靠手工操作——研究、翻译、编码、分析,"她回忆道,"相比使用AI,效率提升显著。"但受舰船网络信号不稳影响,AI处理图片与视频情报时偶有卡顿。
首轮测试完成后,指挥官肖恩·戴南上校在2月记者会上透露将扩展生成式AI应用规模,称此次试验仅触及"冰山一角"。这契合美军全速推进的AI转型战略。五角大楼宣布未来两年投入1亿美元专项支持生成式AI试点,除Vanevar外,微软与Palantir的涉密数据AI联合项目也获重点扶持。(注:以色列在加沙战争中运用AI筛选目标清单引发广泛争议)
学界对此不乏警示之声。AI Now研究所首席AI科学家海蒂·克拉夫曾领导AI安全审计工作,她指出军方急切采纳生成式AI忽视技术本质缺陷:"大模型的不可靠性已广为人知,尤其在要求精准的安全关键领域。"
克拉夫强调即便引入人工复核机制,也难以确保捕获全部错误:"人为监督并不总能有效缓解缺陷。"当AI依赖数千数据点推导结论时,"人类实际上无力核查海量中间数据以判断AI输出正确性。"
情绪分析功能尤其令其担忧,因其"属高度主观评价,仅凭文本媒介即使人类也难以准确判断"。若AI过高估计对美军的敌意或遗漏实际威胁,可能导致误判局势、不当升级风险。
菲利普斯承认公司开发专用模型评估文章亲美倾向,但MIT科技评论无法验证其性能。兰德公司高级工程师克里斯·莫顿近期测评显示,包括GPT-4在内的主流模型在识别隐蔽宣传内容方面逊于人类专家,但在其他分析任务中仍具价值。
克拉夫另指出开源情报可靠性存疑——相比侦察截获的机密情报,其更易受假信息、僵尸网络及人为操纵污染。莫顿则认为开源数据可展示非凡洞察,但承认主观分析依赖度问题是核心争议。
各方共识在于:生成式AI提供的人机交互式情报解析开创了前所未有的可及性;但效率至上的名义下,AI缺陷的可接受底线仍无定论。
参考来源:technologyreview