大型语言模型(LLM)被誉为人工智能领域的重大突破。LLMs 处理和生成文本的能力通常与人类认知水平相当,因此对于包括国防在内的所有领域都具有巨大的应用潜力。与此同时,这项新技术在稳健性和可靠性方面也存在许多未决问题,任何希望利用 LLMs 的组织都面临着巨大的技术挑战。本报告旨在展示如何训练 LLM,使其适应国防领域,并评估此类项目是否值得投入。为此,本文创建了一个基于国防领域瑞典语和英语文本的数据集,并用来训练(微调)两个最先进的LLM。然后对模型进行定性和定量评估。结果表明, 训练后的LLM在与国防有关的文本任务中表现出更高的性能。本文详细描述了训练过程,可以为有兴趣开展类似项目的读者提供指导。训练中的障碍主要与资源限制有关,如硬件、数据和时间,这些限制难以克服,但至少人们对它们有了相对充分的了解。对 LLM 的评估却并非如此:模型具有令人惊讶的能力,但也可能以令人惊讶的方式失败。报告对 LLM 的不同方面进行测试来评估其能力和失败原因,但只能触及表面。总之,大型语言模型已经发展到一个阶段,国防利益相关者可以,也应该开始调整和测试该技术。本报告提供了对陷阱、解决方案和经验教训的见解,对此有所帮助。与此同时,建议对大型语言模型采取冷静的态度,因为对此类模型的评估仍应被视为一个未决问题。
关键词:人工智能、大型语言模型、微调、参数高效微调、低阶自适应(LoRA)
人工智能(AI)是计算机科学的一个分支,其研究对象是开发能够解决通常需要人类认知的问题的机器。其中一个挑战就是处理人类语言,即让计算机能够理解文本输入并做出有说服力的回应。对人类来说,这个简单得令人难以置信的问题可能显得微不足道,而且人们最初认为其很容易通过算法解决。20 世纪 50 年代,随着科学家们开始认识到这项任务的复杂性,早期的机器翻译尝试很快就碰壁了。传统上,计算语言学(CL)试图通过研究支配人类语言的规则,并以适合计算机的方式将其形式化来解决这一问题。另一方面,自然语言处理(NLP)则采取了更加务实的方法,通常是统计方法,其重点是开发能够实际执行某些语言任务的系统,即使范围有限。实际上,几十年来,这两个领域之间的区别已经变得相当模糊,但在很长一段时间里,共同的目标仍然难以实现。
然而,近年来,深度学习(DL)的兴起加速了人工智能领域许多挑战难题的突破性进展,包括语言。硬件的增强和数字数据集的不断扩大,使得在数百万文本上训练拥有数十亿参数的深度神经网络成为可能。深度神经网络可以学习词语在上下文中出现的概率,从而建立大型自然语言统计模型。大型语言模型(LLM)就能够处理文本输入,并生成新的文本,而这些文本似乎可以与人类的理解和书写相媲美。OpenAI 的 ChatGPT 等功能强大的 LLM 引起了媒体和公众的广泛关注,既有赞誉也有担忧,认为这是人工智能的重大突破,但其后果尚不清楚。然而,在撰写本文时,LLMs 的应用仍处于探索阶段,迄今为止主要以聊天机器人或办公软件中的文本助手的形式出现。此外,军事应用的潜力仍然难以估计。LLM 可以服务于国防和情报的所有领域,例如,作为用户界面的一部分、信息融合器、文档辅助工具,以及通过建议和解释行动方案的系统进行决策。
LLM 可以产生令人印象深刻的结果,但也可能以令人惊讶的方式失败。人们对 LLM 的能力、局限性和可靠性还不甚了解,而且随着开发的进展,LLM 也会迅速发生变化。采用 LLM 的另一个障碍是训练和运行 LLM 所需的成本。最强大的 LLM 是在大型超级计算机上创建的,这对许多国家行为者来说也是遥不可及的。其中一些 LLM 只能以在线服务的形式访问,在外国领土上的商业服务器上运行,因此当安全问题至关重要时,使用这些 LLM 是值得怀疑的。还有一些可以在本地获得和运行,也有可能对其进行进一步训练,使其适应特定任务(微调),但最初的创建仍依赖于少数拥有充足资源的组织。这也意味着,初始训练语料库的文本选择超出了大多数 LLM 用户的控制范围,影响了文本在主题和质量方面的平衡,限制了所支持的语言,而且如果 LLM 原始创建者没有确保其对所有训练文本的使用都在知识产权范围内,则有可能产生法律后果。
目前,有关 LLM 的情况既乐观又不确定。一方面,LLM 可能即将彻底改变无数人类认知被认为是必要条件的过程,无论是在民用领域还是军事领域。另一方面,LLM的可靠性尚不明确,各组织有可能被突破性技术的热情所冲昏头脑,将 LLM强加到它们(尚)不适合的应用中。 本报告介绍了如何谨慎地将 LLM 用于与国防相关的目的。详细介绍了几种现代 LLM 的训练过程。然后对 LLM 的鲁棒性和输出质量进行了评估。国防领域涵盖了广泛而多样的主题,而 LLM 在某一主题上的性能取决于是否准备了大量具有高质量和相关性文本的训练语料库。因此,由于资源有限,本报告缩小了训练领域的范围,将重点放在旨在为安全政策分析人员提供支持的 LLM 示例上。
本报告的重点是旨在为安全政策国防领域内的分析人员提供支持性LLM。LLM需要对文本进行总结,回答与安全政策相关的问题,并根据给定的关键短语列表编写文本。类似的任务在其他领域也同样适用,因此,仅限于安全政策领域并不意味着按照类似思路训练的 LLM 可用于其他领域。此外,训练和实施的基本原则也适用于其他主题和更广泛的范围。
本报告的目的是探讨在国防背景下部署和运行 LLM 所面临的技术挑战,以训练 LLM 为安全政策分析员提供支持为例进行说明,并评估有效性。具体方法如下:
1.针对国防领域的应用训练(微调)LLM,包括准备训练数据、选择基础模型、设置训练环境和训练过程;
2.评估经过训练的 LLM 的性能,包括根据不同指标得出的输出文本的质量、模型对提示变化和其他因素的敏感性,以及微调成本是否被基础模型的显著改进所抵消。
本报告的重点是 LLM 技术的核心问题,即模型本身、模型的训练和模型的能力。因此,本报告将不对特定应用的实现进行研究,例如如何在 RAG 系统(检索增强生成)中利用 LLM,即从数据库中检索外部知识并将其插入提示中,从而使 LLM 能够解决需要当前信息的查询问题。虽然这种方法和其他方法是使用 LLM有前途的方法,但它们确实增加了自己的研究问题。此外,任何使用 LLM的方法都得益于对模型的良好训练和理解,因此超出这些核心基本问题的研究将不在本报告的讨论范围之内。
另一个仅涉及的问题是提示工程。LLM 对提问的措辞很敏感,如果重新表述提问,有时会提供更有用的响应。甚至有人观察到,通过添加鼓励性词语(例如“你是一个聪明的模型,请认真思考下面的问题......”)可以提高性能。这推动了直观优化提示的大量尝试。
然而,添加任何直观提示都会减少适合 LLM 有限输入窗口的实际提问词的数量。此外,提示工程的好处并不一致,这些方法有时实际上会降低性能。转述和修改的组合空间实际上是无限的,而且越来越多的证据表明,最佳提示可能根本不直观,因此不可能由人类提示工程师来制定。鉴于提示工程目前的不确定状态,在撰写本文时还无法提出任何可靠的建议,因此该主题主要归于未来的工作。
本报告面向国防部门中希望在军事或情报应用中调整和部署大型语言模型的人员。这既包括评估大型语言模型是否适合预期应用的决策者,也包括训练和实施基于大型语言模型的解决方案的技术团队。
一般来说,本报告的写作水平应该是任何对人工智能和大型语言模型感兴趣的读者都能读懂的。报告偶尔会深入探讨一些细节,但喜欢跳读的读者应该不难理解报告的整体内容。如果读者希望进一步了解使用深度神经网络进行自然语言处理的理论背景,建议阅读《使用深度神经网络进行自然语言处理》(Natural Language Processing Using Deep Neural Networks)报告中的第 3 章。
第 2 章介绍了本报告的理论背景。介绍了大型语言模型这一技术最重要的概念和原理。此外,读者还将了解本报告将使用的具体训练优化方法,包括其背景。最后,本节介绍了如何评估处理和生成自然语言的系统这一长期挑战。评估必须被视为一个开放性的研究问题,相关问题在大型语言模型时代仍然具有现实意义,并影响着本报告中的评估尝试。
第 3 章介绍了第一个目标:创建国防领域大型语言模型。该章分步描述了选择合适的基础大型语言模型、准备合适的训练数据和训练模型的过程。因此,本章也可为希望开展类似项目的读者提供指导。 第 4 章是第二个目标:使用各种定量和定性方法和指标对训练好的大型语言模型进行评估。前面提到的这一领域的挑战意味着本节只是对解决这一问题的广泛尝试的一个介绍,详尽的大规模评估将留待今后的工作中进行。
第 5 章讨论了评估结果,以及在国防背景下使用大型语言模型的更广泛影响,包括见解和经验教训。 最后,第 6 章总结了评估结果,并对今后可能开展的工作进行了简要展望。