大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

利用大规模语言模型 (LLMs) 生成合成数据已成为增强自然数据的有前景的范式，适用于几乎无限范围的任务。然而，大多数现有的方法都相当临时，利用了广泛的种子数据集、LLMs、提示、过滤器以及特定任务的生成策略。鉴于这种多样性，合成数据生成算法之间的直接比较很少，这使得我们很难理解改进的来源以及存在的瓶颈。为了解决这一问题，我们建议通过评估每个算法生成的合成数据的组成来对算法进行评估。特别地，我们提议检查生成数据的质量、多样性和复杂性 (QDC)。选择这三个数据特征是因为它们在开放式过程中的重要性，以及每个特征对下游模型能力的影响。我们发现质量对模型在分布内的泛化至关重要，多样性对分布外泛化至关重要，而复杂性对两者都有益。此外，我们强调了训练数据中质量与多样性的权衡及其对模型性能的下游影响。

接着，我们考察了合成数据管道中各个组件对每个数据特征的影响。这一考察使我们能够通过所使用的组件和对数据质量、多样性、复杂性（QDC）组成的影响，对合成数据生成算法进行分类和比较。该分析进一步扩展为讨论在合成数据中平衡 QDC 对高效强化学习和自我改进算法的重要性。类似于训练数据中的质量与多样性权衡，模型输出的质量与输出多样性之间通常也存在权衡，这些都影响合成数据的组成。我们观察到，目前许多模型的评估和优化仅针对输出质量，从而限制了输出多样性和自我改进的潜力。我们认为，平衡这些权衡对于未来自我改进算法的发展至关重要，并指出了一些在这一方向取得进展的工作。

1 引言

合成数据生成已成为增强大规模语言模型（LLMs）能力的一种有前景的方法，超越了传统的监督式微调数据集。这一发展促使了为各种任务和领域创建了一套多样化的合成数据生成算法。这些算法大多数遵循两步过程：首先，利用现有的大规模语言模型收集大量任务提示和生成的续写文本；其次，筛选生成的数据集，以消除“低质量”样本。它们的主要目标是最大化合成数据的“质量”和数量。然而，较少的工作致力于深入理解数据的哪些内在特征最能影响下游模型的泛化能力。虽然这些算法是起点，但这种方法效率较低，导致大多数合成数据被丢弃（Zhou et al., 2023a）。

本综述旨在通过分析三个关键数据特征——质量、多样性和复杂性——阐明合成数据生成对下游模型泛化的影响。非正式地说，质量衡量数据的“噪声”程度、“正确性”或数据与目标分布Q的一致性。多样性衡量数据的“自相似性”或“覆盖度”。复杂性直观上反映了数据的“难度”或“组合性”。我们选择这三个特征，是因为它们在评估和构建人工开放式系统中的重要性，开放式系统作为一种新兴范式，可应用于模型的迭代自我改进（Hughes et al., 2024）。质量-多样性（Quality-Diversity, QD）领域已确立了质量和多样性度量，作为促进越来越新颖、有趣、可学习、可价值的合成人工制品的有效代理，通常这些人工制品的复杂性也在不断增加，而合成数据生成自然成为这一框架的应用（Pugh et al., 2016; Cully & Demiris, 2017; Chatzilygeroudis et al., 2021）。数据的质量、多样性和复杂性的重要性也体现在许多著名的合成数据生成方法中，这些方法明确或隐含地旨在最大化至少其中一个特征（尽管很少能同时最大化三者）（Xu et al., 2023; Gunasekar et al., 2023; Wang et al., 2023c）。

通过质量-多样性-复杂性（QDC）的视角，我们调查了三个密切相关的研究问题：

RQ1: 质量、多样性和复杂性应如何定义？这些量在大规模语言模型文献中如何衡量？
RQ2: 训练数据中的质量、多样性和复杂性如何影响模型的泛化能力？
RQ3: 现有的合成数据生成算法如何促进质量、多样性和复杂性？

对这些问题的回答能够为设计更加样本高效的合成数据生成算法提供指导，进而提升模型的泛化能力和自我改进能力。

在第二部分，我们调查了RQ1。我们首先提供质量、多样性和复杂性在数据中的抽象、高层定义。非正式地讲，每个特征都相当直观：质量衡量数据的“噪声”或“正确性”，多样性衡量数据的“覆盖度”和“自相似性”，复杂性衡量数据的“难度”或“组合性”。然而，尽管这些定义直观易懂，文献中存在许多不同的实际度量方法，而这些度量方法的实用性各不相同。有些是通用的，有些是领域特定的。有些与下游任务相关的度量指标相关，而有些则不相关（取决于任务的不同）。

通过更好地理解如何在实践中衡量数据的质量、多样性和复杂性，在第三部分我们调查了每个特征对模型性能的影响。我们从中得出三个关键结论，以回答RQ2：

数据质量对分布内泛化至关重要。
数据多样性对分布外（OOD）泛化至关重要。

此外，训练数据的质量和多样性之间经常出现权衡。在这种情况下，必须做出决定，如何在三者之间进行优先排序。这会导致潜在的质量-多样性-复杂性 (QDC) 泛化前沿，因为质量、多样性和复杂性的不同组合会改变下游模型的泛化能力。最后，我们在第四部分调查了RQ3。我们首先通过QDC视角对现有的合成数据生成方法进行分类。这是通过将常见的合成数据管道组件分类为“促进质量”、“促进多样性”或“促进复杂性”来完成的。结果形成了一系列方法，这些方法通过混合和匹配各种组件，生成具有不同质量、多样性和复杂度的合成数据。我们发现，大多数算法采用相对简单的方法来促进质量，通常通过从大型SOTA模型中进行采样。同样，许多方法仅通过使用一个大型种子数据集来初始化采样，从而促进多样性。通常，复杂性并未被显式考虑。接下来，我们讨论QDC数据特征对合成数据生成过程本身的影响，特别是在模型自我改进中的应用。类似于第三部分中提到的QDC权衡，我们发现一些工作表明生成高质量数据的模型与生成高多样性数据的模型之间存在权衡，即模型输出质量与模型输出多样性之间的权衡。我们认为，由于这种权衡，未来的合成数据生成算法必须仔细平衡训练数据的QDC组合，以实现最优的自我改进。然而，当前大多数算法和基准测试只优化质量。因此，模型输出的多样性和更大的自我改进潜力受到了限制。最后，我们强调一些直接受到更经典质量多样性（QD）搜索算法启发的方法（Lehman & Stanley, 2011b; Mouret & Clune, 2015）（参见第1.1节的QD段落），这些方法尝试更显式地控制生成数据的质量和多样性。这些QD合成数据生成算法明确旨在以样本高效的方式生成同时具有最大质量和多样性的数据显示，因此可以同时受益于这两种特性。在第五部分，我们调查了针对LLMs进行合成数据生成的进化/质量-多样性算法，这些算法超出了常见的基准任务。我们在第六部分总结了调查的关键要点，回顾了前面章节中突出提到的主要结论。值得注意的结论包括：

关键结论：

质量在分布内泛化中的作用较大，多样性在分布外（OOD）泛化中的作用较大。适当的复杂性水平可以改善这两者。
质量和多样性在训练数据中经常存在权衡。
许多现有的模型/方法在优化和评估模型输出质量时进行了大量优化，从而限制了合成数据的多样性。

我们还总结了前面章节中突出列出的一些未解决问题。值得注意的未解问题包括：

未解问题：

建立共同衡量模型输出和合成数据质量与多样性的基准。
设计更好的算法，显式地控制模型输出质量与输出多样性之间的权衡。
更好地理解复杂性与其他两个特征之间的权衡。

请参见图1以了解调查的组织结构和关键结论。

1.1 相关主题和综述

**合成数据生成

合成数据生成算法利用生成模型创建“合成”数据点，这些数据可以在后续用于训练、基准测试等。最近有一些综述研究了合成数据生成（Bauer 等，2024；Guo & Chen，2024；Liu 等，2024a；Long 等，2024）。Bauer 等（2024）提供了过去十年在视觉和语言领域的合成数据生成的广泛概述，特别强调了现有算法基准测试的困难。Guo & Chen（2024）和 Liu 等（2024a）则将焦点放在了最近发展起来的合成数据生成实践上，主要关注大规模语言模型（LLMs）。讨论集中在不同领域的应用（例如推理和多模态），而对于在同一领域中不同算法生成的数据特征的比较则较少关注。Long 等（2024）则关注LLM驱动的合成数据生成、合成数据的策划和评估，但较少强调下游影响。

**数据选择

数据选择是从一个较大的训练数据集 D 中选择一部分期望的训练样本的任务。在许多合成数据生成管道中，数据选择起着重要作用，并且是一个已经被广泛调查的主题（Albalak 等，2024；Qin 等，2024；Wang 等，2024c）。Albalak 等（2024）提出了一项系统的关于语言模型预训练的数据选择方法的综述，尤其对当前的工作很重要的是，他们指出数据选择方法通常可以分为两类：分布匹配和分布多样化方法，这两者分别与质量和多样性密切相关。Qin 等（2024）对用于指令调优的数据选择方法进行了综述，发现这些方法可以分为三类：基于质量、基于多样性和基于重要性的方法。Wang 等（2024c）也提出了一项关于指令调优数据选择的综述，但他们的工作侧重于描述如何创建一些流行数据集的样本。

**质量-多样性 (QD) 和开放性

质量-多样性（QD）算法（Pugh 等，2016；Cully & Demiris，2017；Chatzilygeroudis 等，2021）是一类起源于进化计算的搜索算法（Lehman & Stanley，2011b；Mouret & Clune，2015），旨在在人群中同时追求质量和多样性，这也是本综述中涉及的两个关键数据集特性。这些方法灵感来自自然进化的创造力，发现多样化的解决方案（例如物种），并在各自填补的环境生态位中表现出色，进而在种群中演化出越来越多样化和适应的物种。QD结合了传统的目标优化和来自新颖性搜索（Lehman & Stanley，2011a）的见解，后者是一种开放式算法，通过不断积累新颖的解决方案来克服局部最优。通过生成并保持一个多样化的解决方案集合，随后选择出下一代解决方案，这些解决方案要么是日益新颖的，要么是现有解决方案在相似生态位中的优化改进，QD利用这一不断增长的集合来发现更多样化、高质量的解决方案，而无需在质量和多样性之间做出权衡。最近，QD方法已被应用于其显著的搜索能力，旨在生成多样化、高质量的合成数据，用于训练模型（参见第4节）。QD研究与开放性系统（Open-endedness, OE）的研究相一致（Soros 等，2017；Song，2022），这是一个源于开放性进化（Packard 等，2019）研究的广义术语。OE研究旨在设计并发现不断“新颖”和“有趣”的结果，并从现实世界的开放性进程中汲取灵感，如自然进化和人类集体创新。OE已成为提供新方式应对人工智能研究挑战的关键主题之一，例如用于生成合成数据，以供模型学习（Jiang 等，2023；Sigaud 等，2023；Hughes 等，2024；Samvelyan 等，2024b）。基于LLM的工具可能为推进合成数据生成的研究方法提供新的机会，因为OE和进化方法正与LLM组件逐渐融合（Lehman 等，2022；Meyerson 等，2023；Zhang 等，2023；Wu 等，2024a；Chao 等，2024）。

**本综述

本综述补充了上述关于合成数据生成、开放性和质量多样性（QD）的方法的观点。我们将这些研究结果结合起来，形成了一个更广泛的视角，探讨未来数据生成和选择的工作如何从不同领域中衍生出来。我们通过提供一个质量、多样性和复杂性的框架，来对合成数据进行分类，从而更好地理解合成数据生成过程中的权衡和低效问题。我们用具体的经验总结和最佳实践来支持这一框架，涵盖了流行领域，包括预训练、指令调优和推理。最后，我们提供了一份开放问题和未来研究方向的清单，以便更好地理解合成数据生成与QDC之间的交集。上述对现有工作的总结突出了本综述所填补的重要空白。

成为VIP会员查看完整内容

相关内容

大语言模型

关注 54

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译等。2023年，大语言模型及其在人工智能领域的应用已成为全球科技研究的热点，其在规模上的增长尤为引人注目，参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处，更加深入地理解人类语言的复杂性。在过去的一年里，大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟，它将不断拓展其应用范围，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

大规模语言模型在自动规划中的应用综述

专知会员服务

33+阅读 · 2月22日

迈向大语言模型偏好学习的统一视角综述

专知会员服务

23+阅读 · 2024年9月7日

大型语言模型在不同自然语言处理任务中的提示工程方法综述

专知会员服务

58+阅读 · 2024年7月21日

数据与多模态大型语言模型的协同作用综述

专知会员服务

55+阅读 · 2024年7月13日