《生成式人工智能和情报评估》

多年来，人工智能一直被用于改进信号情报的收集和分析，但本文探讨了生成式人工智能可为战略情报分析人员执行的一系列任务。文章认为，将生成式人工智能融入情报评估的最稳妥做法是作为人类分析师的 “副驾驶员”。尽管存在不准确、输入偏差和 “幻觉 ”等问题，但生成式人工智能可以解放时间不足的分析人员，让他们专注于人类最有价值的任务--运用他们的专业知识、隐性知识和 “现实感”。

人工智能（AI）是无法回避的。我们每个人每天都直接或间接地与它打交道。除了柯洁在围棋比赛中输给谷歌的 AlphaGo 这样的偶然拐点之外，人工智能几乎没有大张旗鼓地渗入社会。但现在，围绕人工智能的争论非常突出。这主要与用户友好型生成式人工智能软件的发布和广泛采用有关，其中最著名的是 ChatGPT 和 Google Bard。这些功能强大的程序潜力巨大，许多评论家认为它们的影响堪比另一场工业革命。的确，将人工智能应用到各个领域，尤其是医学领域，可能会带来革命性的变化；但同样，它也会带来巨大的潜在风险--安全、经济、社会和文化风险。首相苏纳克（Rishi Sunak）希望英国能掌握这个等式的两面：在人工智能监管和安全方面引领世界，11 月在布莱切利公园举行的人工智能安全峰会就是一个标志；同时也要抓住这项技术带来的机遇。八十年前，布莱切利公园的前主人--密码破译员、语言学家、数学家和工程师--曾与英格玛机器搏斗并开创了计算技术的先河。本文关注的是生成式人工智能为他们在情报界的继承者，特别是那些专注于情报评估技术的继承者带来的机遇和挑战。文章认为，生成式人工智能有可能极大地补充分析工作。但就目前而言，它最有用的应用是作为辅助工具、副驾驶员，它有可能极大地增强分析人员的工作，但也应谨慎使用。

情报与技术是一对老朋友。几十年来，它们彼此推动着对方的发展。这一点在电子和计算机领域体现得最为明显。在秘密行动中，情报机构推动了技术的发展。它们还经常是新技术的早期采用者，利用新技术开发、维护和增强能力。毕竟，适应性是成功情报机构的标志之一。英国皇家情报总部成功地从模拟机构转型为数字机构，如今甚至将自己定位为 “情报、安全和网络机构”。人工智能已经以多种方式补充了情报工作。各国经常使用人工智能增强系统来协助收集情报。许多在秘密领域工作的私营部门承包商也在人工智能领域大显身手。由人工智能软件支持的闭路电视摄像网络被广泛用于识别和追踪城市环境或恐怖风险较高地区（如火车站）的个人或物体。这种技术也为专制政府提供了无与伦比的机会来压制不同意见或异议，新疆和其他地方的情况就说明了这一点。除数据收集外，这项活动的大部分内容还涉及更轻松、更高效地对数据进行鉴别或选择，从而为时间有限的分析人员的工作提供便利，因为他们需要评估这些数据的含义。人工智能被广泛应用于翻译、将截获的互联网流量减少到可控水平、语音识别或在开放的互联网上搜索对象的协会和联系人等费力的任务。在英国，INDEX 系统允许分析人员在政府和外部报告中进行搜索。核心信息可以通过自然语言处理系统提取和汇总。但是，正如刚刚退休的英国联合情报委员会主席西蒙-加斯（Simon Gass）爵士在今年 6 月指出的，“我们正处在这个阶段的山脚下”。

需要将生成式人工智能和大型语言模型（LLM）整合到情报评估的正常业务中。简单地说，生成式人工智能是指 “能够根据训练数据生成高质量文本、图像和其他内容的深度学习模型”。这些技术已经在国防和情报领域受到高度重视。英国国防部国防创新总监约翰-里奇（John Ridge）最近指出，“我们可以肯定的一点是，这类能力将是绝对关键的”。这些能力是革命性的，还是只是情报工作的另一个发展阶段，还有待观察。但它们改变商业模式的潜力是显而易见的。前几代人工智能主要集中在更有效地收集数据和更有效地整理摆在民间和军事情报分析师面前的材料上，而生成式人工智能则展示了承担迄今为止只有人类分析师才能完成的任务的潜力。基于 LLM 的工具（如 ChatGPT）的主要卖点是，它们可以对问题或命令形式的提示做出响应，并利用现有材料在特定参数范围内做出响应。或者换一种说法，可以命令它们按照特定规格撰写类似人类的报告，以计算机的速度，根据大量数据提出见解或作出推论。

从这个意义上说，情报分析和评估与其他以研究为基础的工作领域处于类似的地位，它们可能（而且几乎肯定会）受到干扰。这些领域包括医疗和法律行业，在这些行业中，根据有关特定主题的全部数字化文献资料快速、清晰地编写报告或文件的前景非常诱人。教育领域也受到了影响，其传统模式正在被检测机器生成的作品这一挑战以及人工智能时代究竟什么才是合法研究这一更具哲学意义的问题所颠覆。尽管如此，在这些领域中的每一个领域，理论上都可以在很大程度上将曾经由人类完成的基本任务外包给机器，尽管需要保持谨慎的警惕。这样做已经产生了令人印象深刻、有时甚至发人深省的成果，比如一篇关于 ChatGPT 对检测剽窃行为的影响的学术论文，该论文已提交给同行评审的学术期刊，并被其接受，但这篇论文是用 ChatGPT “写 ”出来的。不过，如果从各行各业广泛采用 LLM 的轶事证据来看，人类分析师的日子还远未到头。在不久的将来，应将 LLMs 视为情报分析员的额外工具，是提高效率和效力的辅助工具。他们是 “副驾驶员”，可以评估论点、进行数据分析或校对，而不是潜在的替代者。就目前而言，在这些领域中的任何一个领域，要想以其他方式开展工作，风险都太大了。情报工作也不例外：在全球竞争的环境中，整合这些工具的必要性只会越来越强，但过快或鲁莽行事显然存在风险。审慎的做法是，情报评估机构利用人工智能增强人类分析师的能力，为他们创造更多的时间和空间，让他们运用不可或缺的隐性知识和 “现实感”--以赛亚-伯林（Isaiah Berlin）所说的感同身受的理解是历史解释的一个关键特征--来理解全局。

令人欣慰的是，谷歌Bard也同意这一点。当被问及它能为情报分析带来哪些好处时，该程序回答说，它可以执行许多有用的任务。这些任务包括收集信息、分析信息、生成报告、交流研究结果、提出情报需求、管理情报资源和监督情报行动，以确保它们符合法律和道德标准。但是，当被要求确定使用 LLMs 进行战略情报分析的风险时，它指出："重要的是，要将机器的产出与情报分析结合起来：重要的是要将机器输出与人工分析和解释以及对地缘政治环境的全面了解结合起来"。显然，如果 “言听计从”，该系统具有巨大的潜力。但在充分挖掘潜力之前，所有相关人员都需要考虑并解决几个基本挑战。

这些问题包括通常对 IT 网络安全性和稳健性的担忧，例如：确保集成软件经过安全架构审查所面临的挑战、供应链风险的可能性、数据存储的安全性、确保提交给任何系统的查询都经过加密或不可能被敌方重建。其他值得注意的安全问题来自于大量的训练数据、数十亿个参数以及设计可行工具所需的训练过程。目前，这项工作是在基于云的系统中进行的，因此除了常见的网络安全问题外，还增加了数据主权问题。此外，为了最大限度地发挥其价值和效用，特别是在快速发展的情况下，LLM 需要经常或持续访问互联网。显然，有必要将那些与开放互联网保持联系的系统与情报分析员处理更敏感材料和制作情报评估产品的封闭、保密网络分开。

上述问题都不是不可克服的，但这些挑战突出表明，必须有条不紊地解决这一问题，协调政府各相关机构利益攸关方，以成功实施这一至关重要的信息技术项目。这些挑战也并不都集中在如何确保系统不被敌对势力破坏上。还需要考虑监管问题。事实上，大卫-安德森（David Anderson）勋爵在上议院关于人工智能的辩论中指出，"在一个人人都在使用开源数据集来训练大型语言模型的世界里，英国信息中心受到了《调查权力法》第 7 部分的独特限制。这些限制'在某些重要情况下影响了英国信息中心的灵活性，影响了它与商业伙伴的合作，影响了它招聘和留住数据科学家的能力，并最终影响了它的效率'。

只要能找到令人满意的解决方案，LLM 对分析师工作的许多方面都极为有用。其中包括较为传统但费力的任务，如作为研究助理，就特定主题（如国际争端的背景）提供近乎即时的不同长度和细节的摘要，或构建时间轴、撰写简介、总结或分析冗长的文本，或（假设版权和订阅问题得到解决）将最新的学术著作纳入其中。虽然第一批LLM是在英语语料库中接受培训的，但目前开发多语言模型的工作进展顺利。当然，鉴于已发现生成式人工智能生成的回复在准确性和完整性方面存在问题，任何此类产品都必须经过主题专家的检查，类似于跨白厅当前情报小组系统。这可能会提高稳健性和效率，并随着时间的推移，促进机构学习和流程改革。

但潜力显然不止于此。生成式人工智能还可以包括更先进、更重要的工作。例如，分析师可以使用 LLM 来审查和验证他们的书面报告，从而增强现有的分析流程和产品审计程序。例如，可以要求提供任何对关键判断提出质疑或证伪的数据；查询长期以来生成的报告，以确定已成为传统智慧的假设；或使用工具生成 “红队 ”评估。从理论上讲，这种能力可以在几个方面帮助分析人员识别或根除导致情报失败的某些偏见因素，并确保报告尽可能是最新的。不难想象，这些工具的提供和适当使用将如何提高分析界的速度、影响范围和批判性地反思其行为和业绩的能力。

目前这一代 LLM 也可以撰写报告或评估报告。将此类写作任务的早期起草阶段外包给一个工具，可为资源和时间贫乏的情报分析员创造经济效益。毫无疑问，谨慎采用 LLM 是有道理的。但这项技术仍然有限，需要认真监测。这些局限性带来了风险，这一点在 2023 年大众广泛尝试使用 LLM 之后已经得到证明和充分记录（在 META 推出 Threads 之前，没有任何应用能像 ChatGPT 那样迅速得到采用，该应用在推出后五天内用户就达到了 100 万）。对于情报分析师及其产品的接收者来说，其中许多挑战都是非常棘手的。其中包括对这些工具所提供信息的准确性和可靠性的担忧。这些系统非常善于生成似是而非的文本、声明和结论。但这些可能在现实中没有任何依据，甚至在建立 LLM 的训练数据中也没有任何依据。这种 “幻觉 ”已被广泛观察到；在学术工作中，经常出现的 “幻觉 ”是生成不存在的资料来源（例如，引用听起来很有道理但实际上并不存在的网页）来支持生成的主张。这究竟是 LLM 的一个特点还是一个缺陷，还存在争议。无论如何，这都对采用 LLM 进行情报评估构成了重大挑战。分析人员从这些工具中获取材料并将其纳入分析产品时，必须对基础源数据进行系统检查。因此，这项技术提出了一个悖论：一是节省时间，二是增加工作量。

与其他人工智能系统一样，LLM 也会在其生成的任何内容中嵌入偏见。该系统的吸引力和潜力在于它有能力摄取和查询大量资料--基本上是整个开放互联网--但必然结果是，该系统也会摄取现有的偏见和废话，这些偏见和废话可能是关于特定主题的主流叙事，或者是关于特定主题的特定语言。同样，毫无疑问，破坏性或恶意行为者会利用 LLM 快速、廉价地生成大量虚假信息并充斥网络。毫无疑问，敌对行为者也会试图毒害公共或专有 LLM。目前，大多数开放的生成式人工智能应用程序本质上都是黑盒子，这些系统不允许（或不会允许）用户检查它们得出特定判断的过程。这是由于神经网络依赖多层节点处理数据的本质所致。这种可观察性的缺乏，再加上基于 LLM 的系统在可复制性方面的某种脆性--即它对准确提示措辞的依赖--带来了风险和挑战。事实上，鉴于在专业情报界对分析评估采用可审计程序的重要性，在这些工具被纳入正常业务之前，这个问题构成了一个需要克服的重大障碍--或者说需要掌握的挑战。正如在人工智能之前的时代一样，结论必然需要由经验丰富、训练有素的人员进行检查、验证和整个过程的审计。

这些风险有可能被充分降低，使这些工具能够相对迅速地融入分析流程。许多研究人员正在开发人工智能系统，以识别人工智能在各种情况下生成的内容，如学术论文或视频文件。还有一些研究人员正在研究可审计的 LLM 系统；还有一些研究人员正在研究如何开发安全的系统，让分析人员能够在分类系统和开放的互联网上进行搜索。但是，即使这些问题可以得到缓解，还有另一个根本性的问题，即这些系统是否只能是衍生系统，因为它们基本上完全建立在基于已有材料的计算模型之上。它们所提供的洞察力能否与任何接近 “想象力 ”的东西相匹配，还是说它们目前的贡献仍将局限于语法和风格的练习，偶尔会出现幻觉？或者，换一种说法，他们可能会对某个问题进行极其（或表面上）合理的讨论，但鉴于这些讨论是根据一个统计模型得出的，该模型关注的是某个特定的词或概念或 “标记 ”与另一个词或概念或 “标记 ”相联系的可能性，并以训练材料为基础，那么讨论结果中是否会存在固有的保守主义或其他偏见？尽管如此，该领域的变化速度之快，即使预测其对情报评估的相对近期影响也充满了不确定性，突出表明需要不断审查该领域的发展。

虽然其他类型人工智能的贡献已经得到证实，但对生成型人工智能的前景过于技术乐观也会带来风险。虽然这不是一个精确的类比，但美国情报界在 9/11 事件之前忽视人类情报（HUMINT）技能而青睐高科技的做法，应该为任何想把 LLM 的出现视为减少情报界人力的机会的人提供一个警示。选择不当的捷径会造成长期延误。显然，政府必须也必须与 LLM 打交道，必须不断审查现有技术的效用，并愿意在这些系统得到验证后扩大其使用范围。但是，除了投资（拥有或使用）LLM，政府还应保留并加倍投资于人。在采用 LLM 的过程中，最大限度地提高效益和降低风险的一个关键因素将需要包括保持和发展对情报分析师的培训，使他们能够最好地利用这些强大的新工具。这可能包括专业途径，培养一批善于将生成式人工智能融入分析实践 “新常态 ”的官员，使他们能够掌握现有系统，最大限度地发挥其效用，同时将其带来的风险降至最低。但同时也应保持并优先培养主题和分析技术方面的专家，他们可以用经验和智慧、隐性知识和人类特有的 “现实感 ”来补充生成式人工智能的巨大威力。在开展这项工作的同时，还应在政府内部（更不用说更广泛的公众）开展更广泛的教育计划，让他们了解人工智能的用途和局限性。消费者，尤其是自诩为技术狂热者和有远见的 “深层国家 ”或 “小集团 ”的破坏者，应该仔细了解由于 LLM 的便利而绕过其分析机制的局限性和风险。世界不需要唐纳德-拉姆斯菲尔德（Donald Rumsfeld）在伊拉克战争前的 “特别计划办公室”（ChatGPT）。就目前而言，将 LLM 衍生工具整合到分析流程中最合理的使用案例是，由经验丰富、训练有素的人类分析师作为 “副驾驶员”，嵌入到仍然乐于向消费者提供不受欢迎的消息的组织中。

成为VIP会员查看完整内容