人工智能的迅速发展,尤其是基于 Transformer 架构的 大型语言模型(LLMs)的发展,重新定义了自然语言处理的能力。这些模型在多种与语言相关的任务中展现出了卓越的表现,例如文本生成、问答、翻译和摘要,往往能与类人理解相媲美。更为引人注目的是,LLMs 展现出了超越其核心功能的突现能力,表现出在常识推理、代码生成和算术等任务中的卓越能力。 本文综述了驱动这些能力的基础组件、扩展机制和架构策略。重点分析了像 GPT 和 LLaMA 这样的模型,探讨了数据和计算量指数增长对 LLM 性能的影响,并讨论了扩展过程中面临的权衡问题。我们还考察了 LLM 在多个领域(如医疗、金融、教育和法律)的应用,突出了它们的适应性以及解决领域特定问题的潜力。 本文的核心问题包括:LLMs 如何在不同任务之间进行泛化,如何展示规划和推理能力,突现能力是否可以系统地引出或增强。特别地,我们深入探讨了 LLM 中的 CoT(思维链)和 PoT(思维计划)能力,重点分析了预训练数据如何影响这些能力的出现。此外,我们还研究了 LLM-模块化框架,这些框架能够集成外部系统,支持 LLM 处理复杂的动态任务。通过分析这些因素,本文旨在促进关于 LLM 能力和局限性的持续讨论,推动其在新兴且日益复杂的环境中的负责任发展和应用。

1.1 动机

近年来,人工智能领域经历了前所未有的变革,主要得益于基于变换器(Transformer)架构的大规模语言模型(LLMs)的发展。以OpenAI的GPT系列和Meta的LLaMA为代表的这些模型,彻底改变了我们处理自然语言处理任务的方式,实现了曾被认为无法企及的理解、学习和生成水平。它们在多种任务中表现出色,包括文本生成、问答、语言翻译和摘要,展示了它们在解决复杂语言问题方面的巨大潜力。令人惊讶的是,这些模型还展现了一些超越文本生成的能力,如常识推理、代码生成、算术运算以及各个领域中的其他复杂任务。推动LLM演进的关键因素有几个,其中最重要的便是数据和计算资源的指数级增长。社交媒体平台、数字图书馆及其他来源提供了大量的文本和多媒体信息,使得LLM能够在丰富且多样化的数据集上进行训练。另一方面,强大的GPU、TPU以及分布式计算框架的出现,使得训练拥有数十亿乃至数万亿参数的模型成为可能。这两者结合,促使LLM能够捕捉到细致的语言模式、文化背景和领域特定的知识,增强了它们生成连贯、上下文适当且高度多样化输出的能力。然而,随着模型的复杂性和能力的不断增加,这些模型也带来了新的挑战,并引发了关于其适用性、局限性以及未来发展潜力的关键问题。围绕其伦理使用及长期影响的讨论,已经成为关于其未来的核心议题,这不仅涉及到AI领域,还涉及到我们的日常生活。解决这些问题至关重要,因为研究人员和从业者正在继续探索LLM所能带来的变革性可能性。

1.2 论文目标

本文的目标有两个。首先,我们旨在提供关于LLM及其应用的深入综述,从其发展、预训练策略和架构变体的基础概述开始。这包括对从早期语言模型到如BERT、GPT、LLaMA等LLM复杂架构的演进进行考察。特别地,我们探讨了扩展规律的概念,这对于理解LLM的规模和复杂性如何影响其性能和能力,以及构建日益庞大和强大的模型所涉及的权衡和挑战至关重要。我们还将研究它们在各个领域的应用,如医疗、金融、教育、法律和科学研究。每个领域都有独特的挑战和机会,突出展示了LLM的多样性和适应性。例如,在医疗领域,LLM在辅助临床决策方面展现出了潜力,而在金融领域,它们则被用于情感分析和市场预测等任务。本文的第二个目标是深入探讨使LLM能够执行以往被认为机器学习系统无法完成的任务的机制。特别地,我们将尝试回答一些根本性问题。这些模型是如何学习和在任务及领域间泛化的?这些新兴能力是什么,它们如何被激发出来?哪些因素有助于它们的发展(例如模型规模、数据、架构等)?这些模型的固有局限性是什么,又该如何应对?因此,本研究的核心动机是调查LLM的当前能力和边界,重点关注它们在自我规划和执行任务方面的泛化能力。

1.3 内容与组织

下面是按结构组织的论文概要:

  • 第2节 介绍了大规模语言模型(LLMs),追溯了其从早期统计语言模型到现代基于变换器(Transformer)架构的发展历程。强调了扩展规律在LLM发展中的重要作用,即模型规模、数据量和计算资源的增加导致了语言任务中显著的性能提升。本节还展示了如BERT、T5、GPT系列和LLaMA等著名的LLM家族,突出它们各自独特的架构、优势以及对自然语言处理进步的贡献。此外,本节还强调了LLM在医疗、金融、教育、法律和科学研究等各个领域的变革性影响。
  • 第3节 聚焦于LLM的基础构建模块,涵盖数据预处理技术、预训练方法以及模型适应策略。本节探讨了各种预训练方法,包括无监督学习、有监督学习和半监督学习,强调它们对模型性能和适应性的影响。本节还审视了用于LLM训练的不同数据来源,将其分为一般数据(如网页、书籍和对话文本)、专业数据(如科学文献和代码)以及广泛使用的数据集(如Wikipedia、BookCorpus和CommonCrawl)。详细介绍了关键的数据预处理步骤,如质量筛选、数据清洗、去重和分词,它们在为有效的LLM训练准备数据中的作用。此外,本节还讨论了模型适应技术,如指令微调和对齐微调,它们能为特定任务微调模型,并使模型的行为与预期的人类价值对齐。关键地,本节提供了对变换器(Transformer)架构的全面分析,详细描述了其组件(编码器、解码器、自注意力机制)、标准化方法、激活函数、位置嵌入和优化策略。
  • 第4节 讨论了有效利用LLM的策略和技术,重点介绍了上下文学习(ICL)、链式思维提示(CoT)和规划能力。它解释了ICL作为一种独特的提示技术,使LLM能够通过提示中提供的示例进行学习,从而无需显式的梯度更新就能解决新任务。本节详细阐述了各种ICL策略,如示范设计、提示工程和选择合适的评分函数,同时探讨了影响ICL性能的因素。接着,本节介绍了CoT提示作为增强LLM推理能力的强大方法。这种方法通过将中间推理步骤整合到提示中,引导模型采用结构化的思维过程,尤其对需要逻辑推理、问题解决和数学计算的任务非常有益。最后,本节探讨了LLM的规划能力,重点介绍了基于提示的规划技术。该技术将复杂任务分解为可管理的子任务,并生成执行计划。讨论了不同的规划方法,包括基于文本和编程的方式,并强调了反馈机制和计划优化在成功执行计划中的关键作用。
  • 第5节 探讨了LLM中CoT能力的来源,提出了一个假设,即预训练数据中代码的存在可能有助于这些推理能力的出现。为此,本节通过使用LMStudio软件在HuggingFace平台上对公开可用的LLaMA系列模型进行实验,提供了实证证据。分析重点是这些模型在GSM8k和gsm-hard数据集上的推理任务表现,评估它们在利用CoT和思维计划(PoT)方法方面的能力。
  • 第6节 总结了本文的关键内容,重申了LLM在各个领域的变革性潜力。还承认了与LLM发展相关的伦理、技术和实践挑战,并倡导继续进行研究,确保其在未来得到负责任和有益的应用。

2. 大型语言模型

2.1 定义与概述LLMs的核心设计目标是理解、学习和生成连贯且上下文相关的语言,其规模前所未有。历史上,语言模型(LMs)的发展根植于理解和复制人类语言的追求,可以分为四个主要阶段:

  1. 统计语言模型:这些模型旨在捕捉语言的统计特性,如词频和共现,基于马尔可夫假设预测给定词序列的可能性。如果上下文长度固定,模型被称为n-gram模型。然而,这些模型受限于需要估计的转移概率的指数级增长以及马尔可夫假设的局限性,无法捕捉自然语言中的长距离依赖关系。
  2. 神经语言模型:神经网络的兴起导致了利用神经架构捕捉语言复杂模式和依赖关系的语言模型的发展。这些模型,如循环神经网络(RNN)和长短期记忆网络(LSTM),能够捕捉长距离依赖关系和上下文信息,从而生成连贯且上下文相关的文本。
  3. 预训练语言模型(PLM):预训练语言模型的发展标志着语言模型演进的一个重要里程碑。这些模型在大量数据语料库上进行无监督或自监督训练,然后在特定任务上进行微调。ELMo和BERT是这一阶段的代表性模型,BERT通过双向Transformer架构在自然语言处理任务中取得了显著进展。
  4. 大型语言模型(LLM):LLMs的出现重新定义了语言处理系统的能力。研究表明,随着参数数量或数据量的增加,语言模型的性能会提高,这一现象被称为扩展法则。许多LLMs基于Transformer架构,能够捕捉语言中的长距离依赖关系和上下文信息。LLMs在文本生成、问答、语言翻译、摘要和情感分析等任务中表现出色,展示了其在各种应用中的潜力。

2.2 扩展法则

扩展法则是LLMs发展的基本原则,表明随着语言模型规模的增加,其在语言任务中的能力和表现呈现出不成比例的正向增长。这一概念已成为推动语言处理和理解边界的关键力量。随着LLMs在参数数量上的扩展,它们展示了从多样化数据集中泛化并生成上下文连贯文本的非凡能力。扩展法则的核心在于语言模型规模与其包含的参数数量之间的直接相关性。参数是模型在训练过程中学习的内部变量,代表了其理解语言的连接和权重。随着参数数量的增加,模型捕捉复杂语言结构的能力也随之增强。扩展法则的一个主要结果是,模型在各种语言相关任务中的表现显著提升。从语言生成到情感分析、问答和摘要,较大的模型始终优于较小的模型。学习复杂语言特征的能力增强,使得LLMs在理解和生成更接近人类的文本方面表现出色。

2.3 著名模型家族

LLMs的发展得益于一些著名模型家族的出现,每个家族都有其独特的架构和能力。这些模型家族在推动语言处理和理解边界方面发挥了关键作用。

**2.3.1 BERT

BERT(Bidirectional Encoder Representations from Transformers)由Google于2018年推出,通过专注于文本处理中的双向上下文,标志着LLMs的重要演进。BERT的模型架构基于原始Transformer架构,采用了双向Transformer编码器。与之前的模型不同,BERT从左到右和从右到左两个方向分析文本,提供了对语言上下文的更细致理解。这种双向性使BERT在问答、命名实体识别和情感分析等各种NLP任务中取得了最先进的成果。BERT的创新在于其双向性和使用了一种称为掩码语言模型(MLM)的机制。在MLM中,输入令牌的某些百分比被随机掩码,目标是基于上下文预测这些掩码的令牌,利用序列两侧的信息。BERT还结合了下一句预测(NSP)任务,帮助模型学习句子之间的关系,进一步增强其对上下文的理解。尽管BERT具有强大的性能,但它也存在一些局限性。模型的规模和复杂性需要大量的计算资源进行训练,这对一些组织或研究人员来说可能是一个障碍。BERT对周围文本上下文的关注并不能解决所有语言理解挑战,特别是在涉及广泛世界知识或超出其训练数据范围的推理任务时,模型可能会遇到困难。

**2.3.2 T5

T5(Text-to-Text Transfer Transformer)由Google于2019年开发,将所有NLP任务重新定义为统一的文本到文本问题,其中每个任务都被转换为从输入文本生成目标文本。这种方法简化了使用单一模型跨多样化任务的过程,鼓励了对语言的更广义理解。T5基于Transformer模型,类似于其前身BERT和GPT。它利用有效的自注意力机制处理数据序列。该模型设计用于处理各种任务,无需任务特定的架构修改。它使用统一的文本到文本框架,其中任务被转换为输入和输出始终为文本字符串的格式。T5在无监督和有监督任务的多任务混合上进行预训练,使用了称为“C4”的大规模数据集。T5的统一方法简化了将新任务集成到模型训练体系中的过程,因为它们只需要重新格式化为文本到文本格式。尽管T5的统一方法具有显著优势,但它可能并不适用于所有类型的任务。某些任务可能受益于更专门的模型架构或格式。T5的训练过程需要大量的计算资源,这可能对小型组织或独立研究人员构成限制。

**2.3.3 GPT系列

GPT系列由OpenAI开发,处于LLM研究的前沿。最初的GPT模型于2018年推出,基于Transformer架构,显著提升了先前模型对上下文的理解和文本生成能力。GPT-2于2019年发布,扩展了模型的规模,展示了前所未有的文本生成能力。GPT-3进一步推动了边界,展示了在无需任务特定训练的情况下生成类人文本、执行语言翻译和问答等任务的能力。GPT系列基于Transformer架构,利用自注意力机制处理输入数据,允许模型权衡输入上下文中不同词的重要性,增强其理解和生成语言的能力。GPT模型以其堆叠的Transformer块为特征,这些块由多头自注意力层和全连接前馈神经网络组成。该系列在参数数量上呈指数级增长:GPT有1.1亿参数,GPT-2有15亿参数,GPT-3有1750亿参数。GPT模型展示了生成连贯且上下文相关文本的显著能力,模拟了人类的写作风格。它们在无需任务特定数据训练的情况下,在广泛的NLP任务中表现出色,展示了其在少样本、单样本或零样本学习场景中的多功能性。架构的可扩展性表明,较大的模型往往表现出更好的性能,并捕捉到数据中更细微的模式。尽管GPT模型具有强大的生成能力,但它们也存在一些批评。这些模型对数据的依赖性很强,需要大量的文本数据进行训练,这引发了关于环境影响和计算成本的担忧。模型有时会生成看似合理但实际上不正确或无意义的信息,这种现象通常被称为“幻觉”。这些模型的黑箱性质在可解释性和透明度方面提出了挑战,使得理解其决策过程或纠正偏差变得困难。

**2.3.4 LLaMA

LLaMA(Large Language Model Meta AI)是由Meta AI开发的语言模型,旨在为广泛的自然语言处理(NLP)任务提供多功能且高效的基础。LLaMA基于Transformer架构,参数范围从7B到65B不等。与原始Transformer架构的主要区别在于:

  1. 预归一化:LLaMA使用预归一化,意味着归一化层放置在自注意力和前馈层之前。预归一化提高了大型语言模型的训练稳定性和收敛性,使其成为许多最先进模型的热门选择。
  2. SwiGLU激活函数:LLaMA使用SwiGLU激活函数,这是一种Gated Linear Unit(GLU)激活函数的变体。SwiGLU通过增强信息在网络中的流动,提高了大型语言模型的性能。
  3. 旋转嵌入:LLaMA使用旋转嵌入,这是一种位置编码,帮助模型捕捉输入数据中的长距离依赖关系。 尽管LLaMA的规模小于许多竞争对手,但它在大多数基准测试中优于GPT-3,65B模型与Chinchilla和PaLM-540B等最佳大型语言模型竞争,尽管其规模小10倍。

2.4 专用大型语言模型

专用大型语言模型(LLMs)是为特定领域或任务精炼的模型检查点,如医疗和金融。现有的领域特定模型通过预训练在专用数据集上开发,或通过将通用大型模型适应特定任务,或混合这两种方法。这些模型作为领域特定问题解决者,并根据其一般能力(如基本复杂推理)和更细微的能力(如与人类意图的对齐)进行评估。

**2.4.1 LLMs在医疗中的应用

人工智能(AI)与医疗的交汇推动了医疗服务、诊断、治疗和患者护理的进步。LLMs在医疗领域的应用主要体现在以下几个方面:

  1. 医学图像分析:LLMs与医学成像技术结合,提高了诊断的准确性和效率。通过分析放射图像和临床报告,LLMs可以协助放射科医生解释图像,识别异常并提供诊断见解。
  2. 临床决策支持:LLMs在增强临床决策支持系统(CDSS)方面发挥了关键作用。通过分析患者数据和医学文献,LLMs可以协助临床医生诊断病情、建议治疗方案并预测患者结果。
  3. 医疗文档和编码:LLMs展示了自动化临床对话和笔记转换为结构化电子健康记录(EHR)的能力,从而减少了错误并节省了时间。
  4. 药物发现与开发:在制药领域,LLMs加速了药物发现和开发流程。通过挖掘大量化学库和医学数据库,这些模型促进了潜在药物候选物的识别和现有药物的重新利用。
  5. 个性化医疗:个性化医疗根据个体患者特征定制治疗方案,LLMs通过生成患者特定模型来预测疾病易感性和药物反应,从而受益。
  6. 患者参与和自我管理:LLMs通过提供信息、提醒和慢性病自我管理的动机支持,革新了患者参与。 尽管LLMs在医疗应用中具有显著优势,但也面临重大挑战。患者隐私、数据安全性和AI驱动决策的可解释性是关键问题。此外,训练数据中的偏差可能导致患者护理中的不平等,需要在临床部署前进行严格的验证和公平性评估。

**2.4.2 LLMs在金融中的应用

LLMs在金融领域的应用包括情感分析、问答和股票市场预测等任务。尽管对通用领域LLMs的研究广泛,金融LLM(Fin-LLM)研究仍然有限,该领域仍处于早期阶段。

  1. 算法交易:LLMs分析大量非结构化数据,包括新闻文章、财务报告和社交媒体,以评估市场情绪并预测股票价格走势。
  2. 风险管理:在风险管理中,LLMs通过解析和解释复杂的监管文件,识别潜在的合规风险并提供可操作的见解。
  3. 客户服务自动化:金融机构利用LLMs为聊天机器人和虚拟助手提供动力,提供实时、个性化的客户服务。
  4. 欺诈检测:LLMs通过分析交易数据和客户通信,识别欺诈活动的模式,从而增强金融交易的安全性。 尽管LLMs在金融领域具有潜力,但也面临数据隐私、模型决策的可解释性以及训练数据中的偏差等挑战。确保这些模型符合伦理标准和监管合规性至关重要。

**2.4.3 LLMs在教育中的应用

LLMs在教育中的应用显著影响了教学和学习体验。LLMs可以生成个性化的教育内容,提供解释、生成练习题并提供反馈。

  1. 智能辅导系统:LLMs可以模拟一对一的辅导互动,适应学生的学习节奏、风格和当前知识水平。
  2. 自动评分:LLMs可以评估考试和作业中的开放式回答,从而节省教师的时间,使他们能够专注于更个性化的教学方法。
  3. 研究支持:LLMs可以协助文献综述、生成假设甚至撰写研究提案或论文,尽管需要仔细监督以确保学术诚信。
  4. 管理与支持:LLMs可以简化与学生的沟通,处理日常查询并管理日程安排和提醒,从而增强学生和教师的整体教育体验。 尽管LLMs在教育中具有巨大潜力,但也面临确保信息可靠性、避免偏差以及维护隐私和安全等挑战。

**2.4.4 LLMs在法律中的应用

LLMs在法律领域的应用显著影响了法律文件分析、法律判决预测和法律文件撰写等任务。

  1. 法律文件分析:LLMs可以分析法律文件,提取关键信息并提供见解。
  2. 法律判决预测:LLMs可以基于历史数据和案例预测法律判决结果。
  3. 法律文件撰写:LLMs可以协助撰写法律文件,如合同和诉状,提高效率和准确性。 尽管LLMs在法律应用中表现出色,但也面临处理复杂法律推理和多层次上下文理解等挑战。

**2.4.5 LLMs在科学研究中的应用

LLMs在科学研究中的应用涵盖了从文献综述到假设生成、头脑风暴、数据分析、手稿起草、校对和同行评审的各个阶段。

  1. 文献综述:LLMs可以执行详尽的文献综述,总结特定科学学科的进展。
  2. 假设生成:LLMs可以生成有说服力的科学假设,推动研究方向的探索。
  3. 数据分析:LLMs可以自动化数据属性分析,包括探索性数据分析、可视化和提取分析推断。
  4. 手稿起草:LLMs可以协助科学写作,提供摘要、引言和结论的生成服务。
  5. 同行评审:LLMs可以自动化同行评审过程,执行错误识别、合规性检查和提交优先级排序等任务。 尽管LLMs在科学研究中具有广泛的应用前景,但也面临确保信息准确性和避免偏差等挑战。

3. 大型语言模型的基础

3.1 预训练

预训练是开发大型语言模型(LLMs)的基础阶段,允许模型捕捉词之间的关系并生成连贯且上下文相关的文本,为其在特定NLP任务中的表现奠定基础。这一阶段涉及在大量文本数据上训练语言模型,然后在较小的任务特定数据集上进行微调,以提高其在该任务上的表现。

**3.1.1 无监督预训练

无监督预训练是一种预训练策略,涉及在没有标签或注释的情况下在大量文本数据上训练模型。模型被训练为预测给定序列中的下一个词,使用自回归语言建模(ALM)技术。GPT-3及其变体使用这种自回归语言建模目标在大型文本语料库上进行预训练,学习语言中词之间的关系。

**3.1.2 有监督预训练

有监督预训练是一种预训练策略,涉及在带有标签或注释的大量文本数据上训练模型。这种方法使模型能够学习与最终任务更紧密对齐的表示,从而潜在地提高其性能和效率。在有监督预训练中,LLMs暴露于各种领域的标记数据中,学习在已知输入输出对的监督下预测正确输出。

**3.1.3 半监督预训练

半监督预训练是一种混合训练方法,结合了有监督和无监督学习的优势。这种方法利用大量未标记数据和少量标记数据,优化模型的学习效果和适应性。半监督预训练涉及初始使用未标记数据进行训练,类似于无监督预训练,随后在较小的标记数据集上进行进一步训练或微调,以灌输任务特定的知识和细微差别。

3.2 数据源

LLMs的训练和评估依赖于广泛的高质量数据集,涵盖多样化领域和语言。这些数据集作为预训练和微调LLMs的基础,使研究人员能够评估模型在文本生成、翻译等任务中的表现。

**3.2.1 通用数据

通用数据通常包括网页内容、文学作品和对话文本,因其数量庞大、种类繁多且易于获取而受到重视,从而增强了LLMs的语言建模和泛化能力。

  1. 网页:从互联网提取的网页内容是多样化且最新的文本数据来源,涵盖新闻文章、博客文章和论坛讨论。
  2. 对话文本:包括聊天记录和社交媒体互动的对话文本,提供了丰富的非正式语言和口语表达,使LLMs能够捕捉人类交流的细微差别。
  3. 书籍:包括小说、散文和科学文献的书籍,提供了长期结构化和连贯的文本数据,使LLMs能够学习复杂的语言结构和主题细微差别。

**3.2.2 专用数据

专用数据集旨在提高LLMs在特定任务中的熟练度,涵盖多语言文本、科学文献和编程代码。

  1. 多语言文本:多语言文本数据涵盖多种语言和方言,对于训练LLMs理解和生成多样化语言环境中的文本至关重要。
  2. 科学文献:科学文献包括研究论文、专利和技术文档,提供了领域特定的文本数据,对于训练LLMs生成科学文本和推理任务至关重要。
  3. 代码:代码包括源代码片段和软件文档,是结构化文本数据的重要来源,对于训练LLMs生成代码和完成代码任务至关重要。

**3.2.3 常用数据源

LLMs的训练和评估依赖于一些常用的数据源,如BookCorpus、CommonCrawl、Reddit链接、Wikipedia、代码和其他数据集。

  1. 书籍:BookCorpus和Gutenberg是两个著名的数据集,包含来自各种书籍的文本,涵盖多种类型和主题。
  2. CommonCrawl:CommonCrawl是一个庞大的网页语料库,包含来自数十亿网页的数据,涵盖多样化主题和语言。
  3. Reddit链接:Reddit是一个社交媒体平台,用户可以提交链接和帖子,并通过“点赞”或“点踩”进行投票。OpenWebText和Pushshift.io是包含从Reddit提取的文本数据的数据集。
  4. Wikipedia:Wikipedia是一个广泛使用的数据集,包含来自各种文章的高质量文本。
  5. 代码:GitHub和StackOverflow是两个主要的代码数据来源,Google发布了BigQuery数据集,包含来自各种编程语言的代码片段。
  6. 其他:The Pile和ROOTS是包含来自各种来源的文本数据的数据集,如书籍、文章和网站。

3.3 数据预处理

在收集数据后,下一步是进行数据预处理,以确保其干净、一致并准备好用于训练LLMs,去除噪声和无关或潜在有害信息。

**3.3.1 质量过滤

数据预处理的第一步是质量过滤,清理数据以去除无关或低质量内容。现有工作主要采用两种策略:基于分类器的过滤和基于启发式的过滤。

  1. 基于分类器的过滤:训练分类器以区分高质量和低质量数据,使用精心策划的数据(如Wikipedia页面)作为正例,噪声数据(如垃圾邮件或无关内容)作为负例。
  2. 基于启发式的过滤:设置预定义规则以识别和去除噪声数据,如语言过滤、基于指标的过滤、基于统计的过滤和基于关键字的过滤。

**3.3.2 去重

数据预处理的下一步是去重,去除重复数据以减少冗余并提高训练数据的多样性。去重可以在文档、段落或句子级别进行,通过计算文档之间的表面特征重叠率来去除包含相似内容的重复文档。

**3.3.3 隐私减少

隐私减少是数据预处理中的另一个重要步骤,特别是在处理敏感或个人信息时。常见的技术包括掩码个人身份信息(PII),如姓名、地址和电话号码,并用通用占位符或令牌替换它们。

**3.3.4 分词

分词是数据预处理中的关键步骤,将文本数据转换为模型可以处理的令牌。常见的分词技术包括基于词的分词、基于子词的分词和基于字符的分词。

  1. 基于词的分词:将文本分割为单个词,适用于传统NLP研究。
  2. 基于子词的分词:将文本分解为子词单元,如前缀、后缀和词根,适用于处理复杂形态或有限词汇的语言。
  3. 基于字符的分词:将文本分割为单个字符,适用于处理没有明确词边界的语言。

3.4 LLM适应

LLMs的适应是其在实际应用中部署的关键方面,使其能够在预训练后在特定任务或领域上进行微调,通过最小化泛化能力的损失来提高其性能。适应可以通过各种技术实现,如指令微调和对齐微调,这些技术使LLMs能够增强(或解锁)其能力,并将其行为与人类价值观或偏好对齐。

**3.4.1 指令微调

指令微调是一种利用自然语言指令微调预训练LLMs的技术,与有监督微调和多任务提示训练密切相关。指令微调增强了LLMs遵循和理解自然语言指令的能力。与传统微调不同,指令微调采用更广义的方法,通过“指令遵循”范式拓宽模型的实用性。FLAN是一种指令微调方法,显著提高了零样本学习能力,相比传统模型如GPT-3有显著改进。指令微调在PaLM等模型中的应用也展示了其在各种任务中的性能提升。指令微调的实例构建涉及任务描述和输入输出示例的格式化,通常包括任务描述、演示和输入输出对。指令微调的有效性取决于任务描述的多样性和复杂性,以及演示的数量和质量。

**3.4.2 对齐微调

对齐微调确保LLMs的输出与指定的伦理指南或期望行为一致,避免生成虚假信息、追求不准确目标或产生有害、误导或有偏见的内容。对齐微调的主要标准包括有用性、诚实性和无害性。

  1. 有用性:模型有效且高效地协助用户,回答查询或解决任务。
  2. 诚实性:提供准确信息并透明地说明模型的不确定性和局限性。
  3. 无害性:避免生成冒犯性或歧视性语言,并警惕被操纵进行有害行为。 对齐微调的主要方法包括基于排名的反馈、基于问题的反馈和基于规则的反馈。强化学习从人类反馈(RLHF)是一种常用的对齐微调方法,通过强化学习技术(如近端策略优化)基于人类反馈微调LLMs。

3.5 架构

LLMs的架构在决定其性能、效率和可扩展性方面起着关键作用。通常,我们可以识别一些关键组件,如编码器和解码器,它们定义了不同的LLM架构。

**3.5.1 编码器-解码器

编码器-解码器架构是Transformer架构的原始版本,由编码器和解码器组成。编码器将输入序列转换为一组表示,捕捉其语义和句法属性。解码器基于编码表示生成输出序列,通过条件生成每个令牌。

**3.5.2 因果解码器

因果解码器基于前面的令牌预测每个令牌,确保生成过程是单向的,防止模型在预测过程中使用未来的令牌。GPT系列是因果解码器架构的典型代表。

**3.5.3 前缀解码器

前缀解码器允许部分条件生成序列,修改因果解码器的掩码机制,以允许对前缀令牌进行双向注意力,仅对生成的令牌进行单向注意力。这种架构在需要生成具有特定前缀或约束的序列的任务中非常有用。

**3.5.4 Transformer架构

Transformer架构已成为LLMs的事实标准,因其能够捕捉长距离依赖关系并有效建模复杂语言结构。该架构通常由堆叠的Transformer层组成,每层包括多头自注意力子层和位置全连接前馈网络。

**3.5.5 新兴架构

一些新兴架构被提出以解决特定挑战或提高Transformer的性能,如参数化状态空间模型、长卷积和递归更新机制。

3.6 调优与优化

由于LLMs由数百万或数十亿参数组成,参数调优可能非常昂贵且耗时。本节讨论了参数和内存的模型适应方法。

**3.6.1 参数高效模型适应

参数高效模型适应方法旨在减少模型参数数量,同时尽可能保持性能。常用的方法包括适配器调优、前缀调优、提示调优和LoRA。

  1. 适配器调优:在预训练网络的层之间引入小型可训练模块,称为“适配器”,使原始网络的参数保持固定,同时以最小的参数增加适应新任务。
  2. 前缀调优:优化一组称为前缀的连续任务特定向量,将其添加到输入中,使Transformer模型能够像处理输入序列一样处理这些前缀。
  3. 提示调优:在模型输入层引入可训练向量,称为提示令牌,以协助模型执行特定任务。
  4. LoRA:通过低秩分解更新密集层,显著减少内存和存储需求,同时保持单一大型模型以适应各种任务。

**3.6.2 内存高效模型适应

内存高效模型适应方法旨在减少LLMs在推理过程中的内存占用,使其更适合在资源受限的环境中部署。常用的方法包括模型量化。

  1. 量化:通过使用低精度数据类型(如8位整数)表示权重和激活,减少内存和计算成本。量化可以在训练后进行,也可以在训练期间进行量化感知训练。

4. 利用策略与技术

4.1 上下文学习(ICL)

上下文学习(ICL)是一种独特的提示技术,使LLMs能够从提示中提供的示例中学习,从而在不显式梯度更新的情况下处理新任务。ICL策略包括演示设计、提示工程和选择适当的评分函数。

4.2 思维链提示(CoT)

思维链提示(CoT)是一种增强LLM推理能力的强大方法,通过在提示中整合中间推理步骤,引导模型采用结构化的思维过程,特别适用于需要逻辑推理、问题解决和数学计算的任务。

4.3 程序思维(PoT)

程序思维(PoT)是一种将复杂任务分解为可管理子任务并生成执行计划的技术。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。

4.4 复杂任务的规划

复杂任务的规划涉及将任务分解为子任务并生成执行计划。不同的规划方法,包括基于文本和程序的方法,讨论了反馈和计划优化机制在实现成功计划执行中的关键作用。

4.5 检索增强生成

检索增强生成(RAG)是一种将LLMs与外部知识库结合的技术,允许模型在生成过程中检索相关信息,从而提高准确性和可信度。

5. 测试LLMs的CoT能力

5.1 激发思维链的因素

激发思维链的因素可能包括预训练数据中代码的存在,这些代码可能促成了LLMs的推理能力。

5.2 经验证据

通过实验,展示了在HuggingFace平台上使用LMStudio软件对公开可用的LLaMA家族模型进行实验的经验证据,评估了它们在GSM8k和gsm-hard数据集上的推理任务中的表现。

5.3 提示

提示技术在激发LLMs的推理能力中起到了关键作用,特别是在需要逻辑推理和数学计算的任务中。

5.4 生成文本的示例

生成文本的示例展示了LLMs在复杂推理任务中的表现,特别是在使用思维链提示和程序思维方法时的能力。

6. 结论

本文总结了LLMs在各个领域的变革潜力,重申了其在文本生成、问答、语言翻译和摘要等任务中的出色表现。尽管LLMs具有强大的能力,但也面临伦理、技术和实践挑战。未来的研究应继续探索LLMs的潜力,确保其负责任和有益的应用。

成为VIP会员查看完整内容
6

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
52+阅读 · 2024年9月7日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
26+阅读 · 2024年7月11日
综述| 当图神经网络遇上强化学习
图与推荐
29+阅读 · 2022年7月1日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
421+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
151+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【KDD2024教程】RAG遇上LLMs:迈向检索增强的大语言模型
专知会员服务
52+阅读 · 2024年9月7日
大型视觉语言模型攻击综述:资源、进展与未来趋势
专知会员服务
26+阅读 · 2024年7月11日
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员