人工智能的迅速发展,尤其是基于 Transformer 架构的 大型语言模型(LLMs)的发展,重新定义了自然语言处理的能力。这些模型在多种与语言相关的任务中展现出了卓越的表现,例如文本生成、问答、翻译和摘要,往往能与类人理解相媲美。更为引人注目的是,LLMs 展现出了超越其核心功能的突现能力,表现出在常识推理、代码生成和算术等任务中的卓越能力。 本文综述了驱动这些能力的基础组件、扩展机制和架构策略。重点分析了像 GPT 和 LLaMA 这样的模型,探讨了数据和计算量指数增长对 LLM 性能的影响,并讨论了扩展过程中面临的权衡问题。我们还考察了 LLM 在多个领域(如医疗、金融、教育和法律)的应用,突出了它们的适应性以及解决领域特定问题的潜力。 本文的核心问题包括:LLMs 如何在不同任务之间进行泛化,如何展示规划和推理能力,突现能力是否可以系统地引出或增强。特别地,我们深入探讨了 LLM 中的 CoT(思维链)和 PoT(思维计划)能力,重点分析了预训练数据如何影响这些能力的出现。此外,我们还研究了 LLM-模块化框架,这些框架能够集成外部系统,支持 LLM 处理复杂的动态任务。通过分析这些因素,本文旨在促进关于 LLM 能力和局限性的持续讨论,推动其在新兴且日益复杂的环境中的负责任发展和应用。
近年来,人工智能领域经历了前所未有的变革,主要得益于基于变换器(Transformer)架构的大规模语言模型(LLMs)的发展。以OpenAI的GPT系列和Meta的LLaMA为代表的这些模型,彻底改变了我们处理自然语言处理任务的方式,实现了曾被认为无法企及的理解、学习和生成水平。它们在多种任务中表现出色,包括文本生成、问答、语言翻译和摘要,展示了它们在解决复杂语言问题方面的巨大潜力。令人惊讶的是,这些模型还展现了一些超越文本生成的能力,如常识推理、代码生成、算术运算以及各个领域中的其他复杂任务。推动LLM演进的关键因素有几个,其中最重要的便是数据和计算资源的指数级增长。社交媒体平台、数字图书馆及其他来源提供了大量的文本和多媒体信息,使得LLM能够在丰富且多样化的数据集上进行训练。另一方面,强大的GPU、TPU以及分布式计算框架的出现,使得训练拥有数十亿乃至数万亿参数的模型成为可能。这两者结合,促使LLM能够捕捉到细致的语言模式、文化背景和领域特定的知识,增强了它们生成连贯、上下文适当且高度多样化输出的能力。然而,随着模型的复杂性和能力的不断增加,这些模型也带来了新的挑战,并引发了关于其适用性、局限性以及未来发展潜力的关键问题。围绕其伦理使用及长期影响的讨论,已经成为关于其未来的核心议题,这不仅涉及到AI领域,还涉及到我们的日常生活。解决这些问题至关重要,因为研究人员和从业者正在继续探索LLM所能带来的变革性可能性。
本文的目标有两个。首先,我们旨在提供关于LLM及其应用的深入综述,从其发展、预训练策略和架构变体的基础概述开始。这包括对从早期语言模型到如BERT、GPT、LLaMA等LLM复杂架构的演进进行考察。特别地,我们探讨了扩展规律的概念,这对于理解LLM的规模和复杂性如何影响其性能和能力,以及构建日益庞大和强大的模型所涉及的权衡和挑战至关重要。我们还将研究它们在各个领域的应用,如医疗、金融、教育、法律和科学研究。每个领域都有独特的挑战和机会,突出展示了LLM的多样性和适应性。例如,在医疗领域,LLM在辅助临床决策方面展现出了潜力,而在金融领域,它们则被用于情感分析和市场预测等任务。本文的第二个目标是深入探讨使LLM能够执行以往被认为机器学习系统无法完成的任务的机制。特别地,我们将尝试回答一些根本性问题。这些模型是如何学习和在任务及领域间泛化的?这些新兴能力是什么,它们如何被激发出来?哪些因素有助于它们的发展(例如模型规模、数据、架构等)?这些模型的固有局限性是什么,又该如何应对?因此,本研究的核心动机是调查LLM的当前能力和边界,重点关注它们在自我规划和执行任务方面的泛化能力。
下面是按结构组织的论文概要:
2.1 定义与概述LLMs的核心设计目标是理解、学习和生成连贯且上下文相关的语言,其规模前所未有。历史上,语言模型(LMs)的发展根植于理解和复制人类语言的追求,可以分为四个主要阶段:
扩展法则是LLMs发展的基本原则,表明随着语言模型规模的增加,其在语言任务中的能力和表现呈现出不成比例的正向增长。这一概念已成为推动语言处理和理解边界的关键力量。随着LLMs在参数数量上的扩展,它们展示了从多样化数据集中泛化并生成上下文连贯文本的非凡能力。扩展法则的核心在于语言模型规模与其包含的参数数量之间的直接相关性。参数是模型在训练过程中学习的内部变量,代表了其理解语言的连接和权重。随着参数数量的增加,模型捕捉复杂语言结构的能力也随之增强。扩展法则的一个主要结果是,模型在各种语言相关任务中的表现显著提升。从语言生成到情感分析、问答和摘要,较大的模型始终优于较小的模型。学习复杂语言特征的能力增强,使得LLMs在理解和生成更接近人类的文本方面表现出色。
LLMs的发展得益于一些著名模型家族的出现,每个家族都有其独特的架构和能力。这些模型家族在推动语言处理和理解边界方面发挥了关键作用。
BERT(Bidirectional Encoder Representations from Transformers)由Google于2018年推出,通过专注于文本处理中的双向上下文,标志着LLMs的重要演进。BERT的模型架构基于原始Transformer架构,采用了双向Transformer编码器。与之前的模型不同,BERT从左到右和从右到左两个方向分析文本,提供了对语言上下文的更细致理解。这种双向性使BERT在问答、命名实体识别和情感分析等各种NLP任务中取得了最先进的成果。BERT的创新在于其双向性和使用了一种称为掩码语言模型(MLM)的机制。在MLM中,输入令牌的某些百分比被随机掩码,目标是基于上下文预测这些掩码的令牌,利用序列两侧的信息。BERT还结合了下一句预测(NSP)任务,帮助模型学习句子之间的关系,进一步增强其对上下文的理解。尽管BERT具有强大的性能,但它也存在一些局限性。模型的规模和复杂性需要大量的计算资源进行训练,这对一些组织或研究人员来说可能是一个障碍。BERT对周围文本上下文的关注并不能解决所有语言理解挑战,特别是在涉及广泛世界知识或超出其训练数据范围的推理任务时,模型可能会遇到困难。
T5(Text-to-Text Transfer Transformer)由Google于2019年开发,将所有NLP任务重新定义为统一的文本到文本问题,其中每个任务都被转换为从输入文本生成目标文本。这种方法简化了使用单一模型跨多样化任务的过程,鼓励了对语言的更广义理解。T5基于Transformer模型,类似于其前身BERT和GPT。它利用有效的自注意力机制处理数据序列。该模型设计用于处理各种任务,无需任务特定的架构修改。它使用统一的文本到文本框架,其中任务被转换为输入和输出始终为文本字符串的格式。T5在无监督和有监督任务的多任务混合上进行预训练,使用了称为“C4”的大规模数据集。T5的统一方法简化了将新任务集成到模型训练体系中的过程,因为它们只需要重新格式化为文本到文本格式。尽管T5的统一方法具有显著优势,但它可能并不适用于所有类型的任务。某些任务可能受益于更专门的模型架构或格式。T5的训练过程需要大量的计算资源,这可能对小型组织或独立研究人员构成限制。
GPT系列由OpenAI开发,处于LLM研究的前沿。最初的GPT模型于2018年推出,基于Transformer架构,显著提升了先前模型对上下文的理解和文本生成能力。GPT-2于2019年发布,扩展了模型的规模,展示了前所未有的文本生成能力。GPT-3进一步推动了边界,展示了在无需任务特定训练的情况下生成类人文本、执行语言翻译和问答等任务的能力。GPT系列基于Transformer架构,利用自注意力机制处理输入数据,允许模型权衡输入上下文中不同词的重要性,增强其理解和生成语言的能力。GPT模型以其堆叠的Transformer块为特征,这些块由多头自注意力层和全连接前馈神经网络组成。该系列在参数数量上呈指数级增长:GPT有1.1亿参数,GPT-2有15亿参数,GPT-3有1750亿参数。GPT模型展示了生成连贯且上下文相关文本的显著能力,模拟了人类的写作风格。它们在无需任务特定数据训练的情况下,在广泛的NLP任务中表现出色,展示了其在少样本、单样本或零样本学习场景中的多功能性。架构的可扩展性表明,较大的模型往往表现出更好的性能,并捕捉到数据中更细微的模式。尽管GPT模型具有强大的生成能力,但它们也存在一些批评。这些模型对数据的依赖性很强,需要大量的文本数据进行训练,这引发了关于环境影响和计算成本的担忧。模型有时会生成看似合理但实际上不正确或无意义的信息,这种现象通常被称为“幻觉”。这些模型的黑箱性质在可解释性和透明度方面提出了挑战,使得理解其决策过程或纠正偏差变得困难。
LLaMA(Large Language Model Meta AI)是由Meta AI开发的语言模型,旨在为广泛的自然语言处理(NLP)任务提供多功能且高效的基础。LLaMA基于Transformer架构,参数范围从7B到65B不等。与原始Transformer架构的主要区别在于:
专用大型语言模型(LLMs)是为特定领域或任务精炼的模型检查点,如医疗和金融。现有的领域特定模型通过预训练在专用数据集上开发,或通过将通用大型模型适应特定任务,或混合这两种方法。这些模型作为领域特定问题解决者,并根据其一般能力(如基本复杂推理)和更细微的能力(如与人类意图的对齐)进行评估。
人工智能(AI)与医疗的交汇推动了医疗服务、诊断、治疗和患者护理的进步。LLMs在医疗领域的应用主要体现在以下几个方面:
LLMs在金融领域的应用包括情感分析、问答和股票市场预测等任务。尽管对通用领域LLMs的研究广泛,金融LLM(Fin-LLM)研究仍然有限,该领域仍处于早期阶段。
LLMs在教育中的应用显著影响了教学和学习体验。LLMs可以生成个性化的教育内容,提供解释、生成练习题并提供反馈。
LLMs在法律领域的应用显著影响了法律文件分析、法律判决预测和法律文件撰写等任务。
LLMs在科学研究中的应用涵盖了从文献综述到假设生成、头脑风暴、数据分析、手稿起草、校对和同行评审的各个阶段。
预训练是开发大型语言模型(LLMs)的基础阶段,允许模型捕捉词之间的关系并生成连贯且上下文相关的文本,为其在特定NLP任务中的表现奠定基础。这一阶段涉及在大量文本数据上训练语言模型,然后在较小的任务特定数据集上进行微调,以提高其在该任务上的表现。
无监督预训练是一种预训练策略,涉及在没有标签或注释的情况下在大量文本数据上训练模型。模型被训练为预测给定序列中的下一个词,使用自回归语言建模(ALM)技术。GPT-3及其变体使用这种自回归语言建模目标在大型文本语料库上进行预训练,学习语言中词之间的关系。
有监督预训练是一种预训练策略,涉及在带有标签或注释的大量文本数据上训练模型。这种方法使模型能够学习与最终任务更紧密对齐的表示,从而潜在地提高其性能和效率。在有监督预训练中,LLMs暴露于各种领域的标记数据中,学习在已知输入输出对的监督下预测正确输出。
半监督预训练是一种混合训练方法,结合了有监督和无监督学习的优势。这种方法利用大量未标记数据和少量标记数据,优化模型的学习效果和适应性。半监督预训练涉及初始使用未标记数据进行训练,类似于无监督预训练,随后在较小的标记数据集上进行进一步训练或微调,以灌输任务特定的知识和细微差别。
LLMs的训练和评估依赖于广泛的高质量数据集,涵盖多样化领域和语言。这些数据集作为预训练和微调LLMs的基础,使研究人员能够评估模型在文本生成、翻译等任务中的表现。
通用数据通常包括网页内容、文学作品和对话文本,因其数量庞大、种类繁多且易于获取而受到重视,从而增强了LLMs的语言建模和泛化能力。
专用数据集旨在提高LLMs在特定任务中的熟练度,涵盖多语言文本、科学文献和编程代码。
LLMs的训练和评估依赖于一些常用的数据源,如BookCorpus、CommonCrawl、Reddit链接、Wikipedia、代码和其他数据集。
在收集数据后,下一步是进行数据预处理,以确保其干净、一致并准备好用于训练LLMs,去除噪声和无关或潜在有害信息。
数据预处理的第一步是质量过滤,清理数据以去除无关或低质量内容。现有工作主要采用两种策略:基于分类器的过滤和基于启发式的过滤。
数据预处理的下一步是去重,去除重复数据以减少冗余并提高训练数据的多样性。去重可以在文档、段落或句子级别进行,通过计算文档之间的表面特征重叠率来去除包含相似内容的重复文档。
隐私减少是数据预处理中的另一个重要步骤,特别是在处理敏感或个人信息时。常见的技术包括掩码个人身份信息(PII),如姓名、地址和电话号码,并用通用占位符或令牌替换它们。
分词是数据预处理中的关键步骤,将文本数据转换为模型可以处理的令牌。常见的分词技术包括基于词的分词、基于子词的分词和基于字符的分词。
LLMs的适应是其在实际应用中部署的关键方面,使其能够在预训练后在特定任务或领域上进行微调,通过最小化泛化能力的损失来提高其性能。适应可以通过各种技术实现,如指令微调和对齐微调,这些技术使LLMs能够增强(或解锁)其能力,并将其行为与人类价值观或偏好对齐。
指令微调是一种利用自然语言指令微调预训练LLMs的技术,与有监督微调和多任务提示训练密切相关。指令微调增强了LLMs遵循和理解自然语言指令的能力。与传统微调不同,指令微调采用更广义的方法,通过“指令遵循”范式拓宽模型的实用性。FLAN是一种指令微调方法,显著提高了零样本学习能力,相比传统模型如GPT-3有显著改进。指令微调在PaLM等模型中的应用也展示了其在各种任务中的性能提升。指令微调的实例构建涉及任务描述和输入输出示例的格式化,通常包括任务描述、演示和输入输出对。指令微调的有效性取决于任务描述的多样性和复杂性,以及演示的数量和质量。
对齐微调确保LLMs的输出与指定的伦理指南或期望行为一致,避免生成虚假信息、追求不准确目标或产生有害、误导或有偏见的内容。对齐微调的主要标准包括有用性、诚实性和无害性。
LLMs的架构在决定其性能、效率和可扩展性方面起着关键作用。通常,我们可以识别一些关键组件,如编码器和解码器,它们定义了不同的LLM架构。
编码器-解码器架构是Transformer架构的原始版本,由编码器和解码器组成。编码器将输入序列转换为一组表示,捕捉其语义和句法属性。解码器基于编码表示生成输出序列,通过条件生成每个令牌。
因果解码器基于前面的令牌预测每个令牌,确保生成过程是单向的,防止模型在预测过程中使用未来的令牌。GPT系列是因果解码器架构的典型代表。
前缀解码器允许部分条件生成序列,修改因果解码器的掩码机制,以允许对前缀令牌进行双向注意力,仅对生成的令牌进行单向注意力。这种架构在需要生成具有特定前缀或约束的序列的任务中非常有用。
Transformer架构已成为LLMs的事实标准,因其能够捕捉长距离依赖关系并有效建模复杂语言结构。该架构通常由堆叠的Transformer层组成,每层包括多头自注意力子层和位置全连接前馈网络。
一些新兴架构被提出以解决特定挑战或提高Transformer的性能,如参数化状态空间模型、长卷积和递归更新机制。
由于LLMs由数百万或数十亿参数组成,参数调优可能非常昂贵且耗时。本节讨论了参数和内存的模型适应方法。
参数高效模型适应方法旨在减少模型参数数量,同时尽可能保持性能。常用的方法包括适配器调优、前缀调优、提示调优和LoRA。
内存高效模型适应方法旨在减少LLMs在推理过程中的内存占用,使其更适合在资源受限的环境中部署。常用的方法包括模型量化。
上下文学习(ICL)是一种独特的提示技术,使LLMs能够从提示中提供的示例中学习,从而在不显式梯度更新的情况下处理新任务。ICL策略包括演示设计、提示工程和选择适当的评分函数。
思维链提示(CoT)是一种增强LLM推理能力的强大方法,通过在提示中整合中间推理步骤,引导模型采用结构化的思维过程,特别适用于需要逻辑推理、问题解决和数学计算的任务。
程序思维(PoT)是一种将复杂任务分解为可管理子任务并生成执行计划的技术。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。
复杂任务的规划涉及将任务分解为子任务并生成执行计划。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。
检索增强生成(RAG)是一种将LLMs与外部知识库结合的技术,允许模型在生成过程中检索相关信息,从而提高准确性和可信度。
激发思维链的因素可能包括预训练数据中代码的存在,这些代码可能促成了LLMs的推理能力。
通过实验,展示了在HuggingFace平台上使用LMStudio软件对公开可用的LLaMA家族模型进行实验的经验证据,评估了它们在GSM8k和gsm-hard数据集上的推理任务中的表现。
提示技术在激发LLMs的推理能力中起到了关键作用,特别是在需要逻辑推理和数学计算的任务中。
生成文本的示例展示了LLMs在复杂推理任务中的表现,特别是在使用思维链提示和程序思维方法时的能力。
本文总结了LLMs在各个领域的变革潜力,重申了其在文本生成、问答、语言翻译和摘要等任务中的出色表现。尽管LLMs具有强大的能力,但也面临伦理、技术和实践挑战。未来的研究应继续探索LLMs的潜力,确保其负责任和有益的应用。