本文介绍了大型语言模型(LLMs)和生成式人工智能系统(GAIs),并将读者对其能力、局限性和合适应用的期望与底层技术的核心特征联系起来。我们以文本生成为例说明了它们的输入和输出,用一般术语和技术术语解释了它们的功能,阐明了它们的使用和部署方式,并对它们的局限性进行了扩展讨论。我们注意到,GAI 是极其强大的工具,但同时也损害了认知模型,并对其未来发展提出了建议。
本文件是系列文件中的第一份,旨在向军事读者介绍 LLM 和 GAI,内容包括技术、技术现状、益处和风险、可信的高价值军事应用,以及对未来研发重点的建议。
GAI 是指由人工智能(AI)系统创建的内容。它们根据用户的提示制作这些内容,这些提示包含各种各样的任务。GAI 系统包含多种模式,可输入和输出文本、图像、音频和视频(通常是结合使用),而 LLM 子类则输入和输出文本。底层技术采用机器学习,从真正的海量数据中获取模式,GAI 以预测的形式应用这些模式,根据提示生成响应。GAIs 所表现出的智能水平在计算系统中是前所未有的。例如,GPT-4 可在约 25 个标准化测试中生成人类水平的成绩,包括大学先修班微积分、法学院入学考试、GRE 口语以及 SAT 基于证据的推理和写作考试。这些功能是过去几年机器学习技术不断进步的产物。
与所有机器学习模型一样,GAI 也由两部分组成:性能系统和学习系统。性能系统是已部署的组件。它由多层神经网络(即深度神经网络)组成,每一层神经元的输出为下一层神经元提供信息。性能系统执行该神经网络所代表的功能;它接受输入并生成输出,通常关闭学习功能。学习系统通过对原始材料的训练来定义该功能。每个 GAI 都是一个统计模型。它的学习系统将训练数据的分布编码到神经网络中,而性能系统则对该分布进行采样;它将类似的输入映射到类似的输出中。
LLM 是一种简单的预测器--给定一个提示,输出下一个最有可能出现的单词,然后将生成的单词添加到提示中,反复进行,直到完成应答。LLM 通过对来自在线文本的数以万亿计的输入序列进行训练,学会预测下一个单词的可能性;更正式地说,LLM 可以根据提示和训练文本获得下一个单词的条件概率分布。该分布可泛化到新的输入序列,让 LLM 对从未见过的提示做出反应。由于训练文本非常广泛,从理论上讲,学习到的分布反映了人类的广泛经验。LLM 提示会挖掘这些知识。
LLM 的性能系统采用了一种称为转换器的深度神经网络设计,对词义进行计算。转换器将输入文本中的单词表示为高维空间中的点(即数字向量,称为嵌入),其中含义相似的单词具有相似的向量。它们会移动每个单词的表示,以反映输入文本中其他单词的影响(通过一种称为自我关注的计算),其中单词含义的特定转换是在训练过程中为预测下一个单词而学习的。学习系统会逐步调整转换器网络中的权重,以提高分配给正确单词的概率,降低分配给其他单词的概率。它对训练语料库中的每个示例都会这样做。转换器会学习训练文本中相距较远的单词之间的依赖关系,这受到所谓的相关长度的限制。根据标准化成绩测试的结果,相关长度越长,LLM 的性能就越高。
GAI 通过采用对相邻部分/像素进行操作的深度学习架构(称为卷积设计),对图像等非序列数据进行统计分析。例如,DALL-E 通过训练卷积模型,从噪声中构建出格式良好的图像(在解构约 4 亿张图像为噪声后),从而从标题生成图像。它根据 LLM 前端生成的输入文本表示进行重构。
GAI 应用程序通常是分阶段开发的,基础模型随后会被调整以执行许多更具体的任务。基础模型的创建成本很高;它们以数十亿到数万亿个可学习的神经网络参数来捕捉有关世界的知识,这些参数必须在数十亿到数万亿个示例上进行训练。训练 GPT-4 的计算预算高达 6000 万美元。基础模型可以通过添加(和训练)新的层来适应新的任务,方法是将基础模型作为预处理器,或者将其提炼为一个更小的模型,可以在移动设备上重新训练和/或执行(但功能会有一定损失)。
虽然 GAI 是极其强大的工具,但它们也是受损的认知模型,其弱点可归因于统计预测的核心特性。GAI 缺乏区分事实与虚构、确保逻辑一致性、尊重因果关系、执行推理、制定计划、遵循社会规范或进行判断的能力。它们难以推断出新的情况。由于解决方案是片面的、外在于统计 GAI 框架的、针对特定任务的,因此这些弱点在未来的 GAI 应用中仍将显而易见。因此,用于高价值军事任务的 GAI,如情报分析(特别是反事实推理和观察推理)、批判性思维(针对特定任务从多个来源得出结论)以及需要判断的高风险决策任务,都需要 GAI 技术的进步,并带来性能风险。在这些情况下,GAI 最好与人合作使用。