摘要
大型语言模型(LLMs)的成功本质上与海量、多样化和高质量的训练和评估数据的可用性密切相关。然而,高质量数据的增长速度远远落后于训练数据集的扩展,导致了潜在的数据枯竭危机。这凸显了提高数据效率和探索新数据源的紧迫性。在此背景下,合成数据作为一种有前景的解决方案出现。目前,数据生成主要包括两大方法:数据增强和数据合成。本文全面回顾并总结了贯穿LLM生命周期的数据生成技术,包括数据准备、预训练、微调、指令调整、偏好对齐及其应用。此外,我们讨论了这些方法当前面临的限制,并探讨了未来发展的潜在途径。我们的目标是为研究人员提供对这些方法论的清晰理解,帮助他们在构建LLM时快速识别合适的数据生成策略,并为未来的探索提供宝贵的见解。
近年来,大型语言模型(LLMs)在广泛的任务中展现了无与伦比的能力【9, 68, 166】,牢固地确立了它们作为通用人工智能(AI)系统支柱的地位。这些模型在自然语言处理【234, 262, 264】、计算机视觉【100, 207, 239】和其他研究领域【36, 163, 229】中取得了显著的进展,不断推动AI所能实现的边界。LLMs的成功很大程度上归功于它们能够从大量数据中捕捉复杂的模式和关系,使其能够高效执行复杂任务,例如自然语言推理【39, 134】、视觉问答【151, 158】和视觉与语言导航【125, 178】。 然而,LLMs的性能高度依赖于训练数据的质量和数量【2, 57, 58】。随着模型规模的指数级增长——现在达到数十亿甚至数万亿个参数【105, 168, 268】——对于大规模、多样化和高质量数据的需求日益增加,以确保模型在各种任务和领域中的稳健泛化。获取此类数据带来了巨大的挑战,因为数据收集成本高昂,同时还面临隐私问题。此外,高质量数据的增长速度远远落后于训练数据集规模的快速扩展。如果这一趋势继续下去,现有的数据将最终耗尽,意味着如果不能显著提高数据效率或发现新的数据源,LLMs的增长可能会显著放缓。
面对这些迫在眉睫的限制,数据合成和增强技术对于延长LLMs的生命周期和提升其泛化能力至关重要。传统的数据合成和增强技术【34, 98, 135, 194】,如图像旋转、裁剪、翻转以及基于规则的自然语言生成,已被广泛应用于解决这些数据限制。尽管这些方法在一定程度上改善了数据多样性并缓解了数据匮乏问题,但它们仍难以充分捕捉真实世界数据的复杂性【55】,难以大规模生成数据【233】,并且难以抵御对抗性样本【162】,这限制了它们在LLM训练中的有效性。
为了克服这些挑战,研究人员越来越多地转向面向LLM的数据合成和增强技术,认识到LLM能够从大型数据集中建模复杂模式,并生成与真实世界分布高度相似的合成数据,同时引入有价值的变异【37, 175, 260】。这些研究减少了对人工策划数据集的依赖,并能够生成高质量、多样化的数据,以满足LLMs在其生命周期和功能中的不断演进需求。为了捕捉这些努力的广度,我们通过在Google Scholar中使用“数据合成”、“数据增强”和“大模型”等关键词收集了与LLM数据合成和增强相关的论文。图1展示了按年份和发布平台划分的出版趋势,反映了该领域日益增长的兴趣。截至2024年10月,我们识别出了250篇涵盖不同研究主题和发布平台的独特出版物。总结这些努力为我们提供了对进展和剩余挑战的关键见解,并为未来的研究奠定了基础。 尽管取得了这些进展,但在LLM数据合成和增强方面仍然存在一些关键挑战。合成数据的滥用带来了风险,特别是在传播错误信息和引发操纵公众舆论的伦理问题时。此外,合成数据在将AI模型与人类价值对齐时经常引入歧义,可能导致偏见结果。评估训练于合成数据上的模型也很复杂,因为传统的基准测试可能无法完全捕捉这些数据的细微差别。确保可靠性也是另一个问题,因为原始数据集中的偏见和不准确性可能在合成数据中持续存在,限制了它的跨领域泛化能力。此外,LLM的计算需求,以及处理不常见语言或新颖指令的挑战,也使得其更广泛的应用变得复杂。最后,缺乏统一的框架来组织和比较学术界和工业界提出的方法,这也是研究人员在应对这一快速发展的领域时面临的障碍。
本综述旨在通过提供LLM数据合成和增强技术的全面概述来解决这些差距。如图2所示,与先前的综述【43, 140, 147, 214, 271】主要集中在支持特定下游任务或LLM某些阶段的方法不同,我们的工作强调了LLM数据合成技术在提升其生命周期各个阶段和核心功能整体性能中的直接作用。与【137】的工作不同,该工作主要关注解决数据匮乏和隐私问题的合成数据生成实践,我们的综述不仅提供了实际指导,还通过分类方法全方位提升LLM性能。我们不仅探讨了数据生成方法,还研究了这些技术如何在LLM的各个阶段和功能中发挥作用,提供了一种更综合、以数据为中心的框架来推进LLM的发展。具体而言,我们从两个关键角度系统回顾和分类了现有研究:LLM生命周期(从预训练到微调和应用)及其核心功能(理解、逻辑、记忆和生成)。通过围绕这两个角度展开讨论,我们为不同方法的发展、相互联系及实际应用提供了更清晰的见解。此外,我们还识别了关键挑战,探索了新兴的研究方向,并突出了可能进一步推动通过数据为中心的方法提升LLM性能的潜在突破。
本综述的贡献总结如下:
通过提供LLM数据合成和增强方法的全面概述,本综述旨在阐明该领域的现状,并激发未来的研究方向,以通过数据合成和增强方法进一步提升LLM的能力。
我们对本综述的其余部分进行如下组织:第2节对LLM数据合成和增强的主要领域进行了分类,概述了基础技术。第3节从LLM生命周期的角度讨论了当前的LLM数据合成和增强方法,详细说明了这些技术如何在模型开发的不同阶段使用。在第4节中,我们从LLM核心功能的角度回顾了这些方法,探讨了数据合成和增强如何提升关键能力,如理解、逻辑、记忆和生成。第5节探讨了LLM数据合成和增强的评估策略,涵盖了评估基准、评估指标和排行榜,用于评估和比较现有方法的有效性。最后,第6节深入研究了LLM数据合成和增强中的挑战和新兴趋势,并提出了未来的研究建议,以促进LLM通过数据合成和增强方法的持续进步。
数据生成方法在解决数据稀缺性和不平衡问题方面起着关键作用,从而提升模型性能和泛化能力。如图4所示,我们总结了近年来数据增强和合成技术的发展和演变。本节主要介绍当前数据生成方法的分类,区分了数据增强和数据合成。数据增强通过对现有数据样本的转换来增强其多样性,而数据合成则是从头或基于生成模型创建全新的样本。两者在获取数据的方式上有所不同,但目标都是扩展数据集。此外,数据增强和合成方法可以从多个维度进行细分。每种方法都有其独特的优势和应用,使研究人员能够根据特定需求和目标定制其数据生成策略。
数据增强是一种从数据到数据的生成方法,通常涉及对原始数据进行操作,以增加其多样性和数量,而不会显著改变其本质特征。数据增强技术通过转换或扰动现有数据样本,旨在提高其丰富性。在不同的模态中,数据增强技术往往具有相似性。例如,在图像数据中,增强操作包括拼贴【90】、翻转【184】、复制粘贴【61】、加噪声【149】、配对【84】等。类似地,在文本数据中,增强操作包括同义词替换【95】、复制粘贴【185】等。此外,为满足多模态学习的需求,现有研究已在数据增强过程中解决了跨模态信息对齐问题。MixGen【75】通过线性插值图像和拼接来自两个现有图文对的文本序列生成新的训练样本,所生成的图文对中的语义关系保持一致并匹配。近年来,在快速发展的LLM领域,数据增强已成为通过多样化训练示例来提升模型性能的基石,从而避免了大量额外数据收集的必要性。从数据中心的角度来看,我们系统地将现有的数据增强研究分为三类:数据标注【3, 63, 94, 136, 198, 275】、数据重组【45, 51, 143, 237】和协同标注【11, 43, 116】。
2.1.1 数据标注
数据标注旨在利用LLM广泛的语言理解能力来为大量未标注数据集提供注释。这种方法在拥有大量未标注数据的领域(如跨语言处理和多模态学习【3, 63, 275】)中特别有用,在这些领域中,自动化标注可以显著加快数据准备过程。最近的研究探索了LLM的零样本标注能力,例如GPT-4对政治推特的标注【198】。此外,Khan等人【94】通过使用SelTDA框架从未标注的图像中生成伪标签数据,专注于视觉问答(VQA)任务。
2.1.2 数据重组
数据重组涉及将现有数据转化并重组为更多样化的变体,从而实现更精细的数据增强【45, 51】。这种方法旨在通过引入多样而相关的示例来丰富训练环境,增强模型的鲁棒性和泛化能力。旋转【92】、颜色通道转换【64】和同义词替换【95】等经典方法经常使用。近年来,利用LLM的策略也开始出现。例如,Chen等人【27】提出了Disco方法,该方法利用LLM生成大规模、高质量的反事实数据。2.1.3 协同标注 协同标注指的是人类标注者与LLM在标注过程中的协作【11】。通过整合两种标注方法的优势,协同标注不仅降低了标注成本,还同时提升了标注性能,从而促进了更高效和有效的数据标注方法。Li等人【116】提出了CoAnnotating框架,通过评估LLM的标注不确定性,策略性地分配数据点给人类或LLM进行标注。
另一方面,数据合成旨在从头或基于生成模型创建全新的数据,这些数据与真实数据的分布相似。近年来,随着生成式AI【13, 41, 42, 78, 139, 161, 169】的爆发和进步,合成数据的质量和生成效率取得了显著进展。根据LLM的需求,本文将数据合成方法分为三大类:通用模型蒸馏【22, 53, 120, 263, 266】、领域模型蒸馏【108, 145, 146, 215】和模型自我改进【54, 150, 210, 248】。2.2.1 通用模型蒸馏 通用模型蒸馏涉及利用功能强大的通用模型,通常具有更多参数和更优性能,如StableVicuna、ChatGPT和GPT-4,来生成数据集以增强较弱模型的能力。使用这些强大模型的方式有多种,例如使用预定义的模板生成小故事【53】或利用LLM自身评估生成数据的质量。Phi-1及其系列【67, 120】表明,通过利用GPT-3.5生成教科书和习题的全面内容,一小部分高质量数据也可以训练出强大的模型。其他一些方法通过生成指令数据集并在改进这些数据集的质量后微调模型,也取得了性能提升【22, 80, 196】。2.2.2 领域模型蒸馏 领域模型蒸馏是指利用特定领域内的模型生成数据。这种方法通常在通用模型无法满足行业应用的特定需求时使用。例如,在代码编程领域,领域模型蒸馏可以用于生成针对特定编程任务的指令数据【146, 215】。在数学领域,Minerva【108】和DeepSeekMath【220】等方法旨在生成数学问题的解答,同时确保其准确性和多样性。此外,行业数据往往面临规模有限和数据无法在特定企业中获取等障碍。这些因素需要采用能够有效解决这些特定场景中挑战的领域专用模型。
2.2.3 模型自我改进
模型自我改进是指模型生成更高质量的数据以提升其能力。例如,利用现有指令调整模型,并促使其以特定风格(如维基百科风格或问答风格)改写网络上的文档,可以联合预训练LLM进行真实和合成的释义任务【150】。Self-Instruct【210】通过自动生成和改进指令数据来增强LLM自身的性能,极少需要人工干预。
数据合成和增强对于推动LLMs的发展至关重要,特别是在满足LLMs对大规模和高质量数据需求方面。本综述全面回顾了面向LLM的数据合成和增强技术,系统地探讨了这些技术在LLM整个生命周期及核心功能中的应用,并构建了一个连接现有研究的框架,突出关键方法,阐明其优势与局限性。我们相信,面向LLM的数据合成和增强方法的进步将开辟新的可能性,以提升数据效率、改善任务间的泛化能力,并推动以数据为中心的AI的演变。我们希望本综述能为未来的研究奠定基础,激发该领域的数据合成和增强的创新与进步。