人工智能模型的成功依赖于大量、多样化和高质量数据集的可用性,由于数据稀缺、隐私问题和高成本,获取这些数据可能面临挑战。合成数据作为一种解决方案应运而生,通过生成模仿现实世界模式的人造数据。本文提供了合成数据研究的概览,讨论了其应用、挑战和未来方向。我们呈现了先前艺术作品的实证证据,以证明其有效性,并强调确保其事实性、保真度和无偏见性的重要性。我们强调需要负责任地使用合成数据,以构建更强大、包容和可信的语言模型。
https://www.zhuanzhi.ai/paper/23dede415fe236688f496c1c456a1265
人工智能(AI)技术的迅速发展导致其在众多领域得到广泛应用,从助手代理(例如,Adept AI的ACT-1)和软件开发(例如,Cognition Lab的Devin)到医疗保健(Singhal等人,2022年)和金融(Zheng等人,2022年)。然而,AI模型的成功在很大程度上依赖于大量、多样化和高质量数据集的可用性,用于训练和评估。由于数据稀缺(Babbar和Schölkopf,2019年)、隐私问题(Abay等人,2019年)以及数据收集和注释的高成本(Gilardi等人,2023b),获取此类数据集可能是一个重大挑战。悲观者预测,到2050年我们将耗尽新鲜的文本数据,到2060年将耗尽图像数据(Villalobos等人,2022年)。合成数据已经成为解决这些挑战的有希望的解决方案(Nikolenko,2021年)。合成数据指的是通过算法(Saxton等人,2019年)、生成模型(Borisov等人,2022年;Meng等人,2022年)或甚至模拟(Liu等人,2023c;Vezhnevets等人,2023年)而非直接由人类创建的,模仿现实世界数据特征和模式的人造数据。通过利用合成数据,我们不仅可以克服现实世界数据的限制,还可以解锁发展更健壮、可靠和公平AI模型的潜力(Lu等人,2023年;Lucini,2021年)。合成数据的许多好处之一是它可以大规模生成,为AI模型提供丰富的训练和测试数据。这在现实世界数据稀缺或难以获取的领域尤其宝贵(例如,涵盖所有条件的天气数据(Lam等人,2023年;Li等人,2023a))。其次,合成数据可以根据特定需求进行定制,例如通过引入控制变异来确保不同类别的平衡表征(例如,在多语言学习中增加低资源语言的权重(Przystupa和Abdul-Mageed,2019年))。这种对数据特征的控制水平可以提高模型性能和泛化能力。第三,合成数据可以通过创建匿名化或去标识化数据集来帮助缓解隐私问题,这些数据集不包含敏感的个人信息(El Emam等人,2020年;Howe等人,2017年)。这在医疗保健等领域至关重要,在这些领域中,患者隐私至关重要(Dahmen和Cook,2019年;Wei等人,2019年)。尽管合成数据具有潜力,但也存在需要解决的挑战。其中之一是确保合成数据的事实性和保真度(Heusel等人,2017年;Wood等人,2021年),因为在虚假、幻觉或有偏见的合成数据上训练的模型可能无法推广到现实世界情境(Guarnera等人,2020年;Van Breugel等人,2023年)。研究人员必须开发复杂的生成模型和评估指标,以创建准确反映现实世界数据中复杂模式和关系的合成数据。另一个挑战是,如果合成数据设计和验证不当,可能会放大偏见或引入新的偏见(Barbierato等人,2022年;Gupta等人,2021年)。我们认为,严格的测试和公平性评估是必要的,以减轻这些风险。在本文中,我们追踪了合成数据研究的当前状态,并讨论了当前的最佳实践和经验教训。本文的其余部分组织如下。第2节提供了合成数据生成技术及其在模型训练中的应用的概述,呈现案例研究和实证证据。第3节讨论了合成数据在评估中的用途。第4节讨论了合成数据的挑战和局限性,在第5节中,我们概述了潜在的解决方案和未来研究方向。
2. 合成数据在训练中的应用
合成数据通过模拟真实世界收集的真实数据生成,已被证明是一种有效且相对低成本的真实数据替代品。本节探讨了几个利用合成训练数据的显著领域。
2.1. 推理
数学。最近在语言模型(LMs)的数学推理方面的进展促使了各种提升数学相关任务性能的方法的发展。其中一种方法是在针对数学的预训练数据上训练,例如Minerva(Lewkowycz等人,2022年)、Llemma(Azerbayev等人,2023年)和DeepSeekMath(Shao等人,2024年)。另一种主流方法是生成模拟目标基准的训练或验证集的合成问题和答案。例如,WizardMath(Luo等人,2023a)利用GPT-3.5进行一系列操作以提高问题和答案的复杂性,而MetaMath(Yu等人,2023)通过语义重述、自我验证和逆向推理等不同方式改写MATH和GSM8K的问题。GAIR-Abel(Chern等人,2023)发现增强答案的格式对最终性能至关重要,以问题的释义开始,然后逐步解答的答案表现优于普通格式。Xwin-Math(Li等人,2024)进一步将合成SFT数据扩展到一百万例,并发现LLaMA-2 7B模型(Touvron等人,2023)仍可从数据扩展中受益。MMIQC(Liu和Yao,2024)组成了一个数据集包,将SFT风格数据(通过问题-答案重述或直接来自MetaMath)与一部分高质量的数学预训练数据(如OpenWebMath(Paster等人,2023))结合起来。扩大生成合成数学数据是一个直接的过程,但确保生成的数学数据的正确性仍然是实践者面临的重大挑战。AlphaGeometry(Trinh等人,2024)是最近解决这一问题的尝试,该模型通过使用1亿个合成数据点进行训练,提出解决方案并指导符号演绎引擎验证解决复杂几何问题时每个分支的正确性。通过结合合成数据的力量和严格的验证过程,AlphaGeometry实现了与人类奥林匹克金牌得主相当的解题能力,展示了这种方法在处理复杂数学推理任务中的潜力。编码。与数学不同,合成数据用于代码推理可以自然地将执行结果与结构化代码结合起来,因为正确代码的一个要求是可执行的。在增强编码的模型中,CodeRL(Le等人,2022年)提出了一种演员-评论家方法,通过对合成代码样本的反馈信号改进预训练语言模型。Haluptzok等人(2022年)提出了一种自我改进策略,其中模型生成自己的合成难题-解决方案对。这些对然后由真实解释器验证并过滤,之后用于微调语言模型。Shypula等人(2023年)进一步提出了一个框架,利用模拟环境和自我改进合成数据生成及CoT提示等适应策略进行代码优化。Yang等人(2024年)开发了InterCode,一个旨在增强交互式代码生成的框架,在这个框架中,代码作为动作,执行反馈作为观察。Reflexion(Shinn等人,2024年)利用外部或内部模拟的语言反馈信号来提高语言模型的代码推理能力。关于合成SFT数据,Code Alpaca包含一个由20K代码指令自动生成的数据集,这些指令通过将SELF-INSTRUCT(Wang等人,2022a)应用于ChatGPT的21个种子任务生成。WizardCoder(Luo等人,2023b)引入Code Evol-Instruct来指导ChatGPT,通过启发式提示增强合成数据的复杂性和多样性。同时,Magicoder(Wei等人,2023c)开发了OSS-INSTRUCT,从开源代码片段生成75K多样化的合成指令样本。其他推理任务。合成数据在其他推理任务中也带来了令人印象深刻的表现。例如,Wei等人(2023a)通过将自然语言标签替换为任意符号,增强现有自然语言数据集,生成了超过50万个合成示例。使用这些合成数据进行监督微调显著提高了模型在未见过的上下文学习和算法推理任务上的性能。STaR(Zelikman等人,2022年)生成合成的思维过程理由,并过滤掉那些导致错误答案的理由,以微调语言模型,提高其推理能力。在物理推理领域,Mind’s Eye(Liu等人,2022年)采用了一种新颖的方法,通过合成“文本描述 → 渲染代码”的数据训练文本到代码模型。这使得模型能够将文本问题转换为渲染代码,然后在物理引擎(即DeepMind MuJoCo(Todorov等人,2012年))中执行。渲染结果被注入上下文中,即使是小型语言模型也能借助Mind’s Eye实现与100倍大的模型相当的性能。
2.2. 工具使用和规划
通过合成轨迹学习使用工具。合成数据也是一种强大的方法,可以通过模拟轨迹使LMs学习使用工具的能力,因为收集真实世界中的人类使用工具的数据可能既耗时又不实际,并且调用工具的实际分布可能是偏斜的。例如,LaMDA(Thoppilan等人,2022年)不仅在网页文档上进行了训练,还在众包工作者与模型本身之间的交互数据上进行了训练,合成数据中注明了调用适当工具的信息。这一训练过程使LaMDA能够发展出使用计算器进行算术、使用搜索引擎进行实时信息搜索和使用机器翻译进行翻译的能力。类似地,Toolformer(Schick等人,2024年)学习决定调用哪些API及传递什么参数,通过在模板生成的数据上训练,而Galactica(Taylor等人,2022年)将API调用数据融入预训练混合中。ToolAlpaca(Tang等人,2023年)是一个旨在自动生成多样化工具使用语料库的新颖框架,通过构建多代理模拟环境并让代理反复选择并使用工具。这些例子展示了合成轨迹在使LMs获得使用工具的能力和提高其在各种领域的推理能力方面的潜力。在合成环境中学习规划。自治机器智能(LeCun,2022年)中代理的一个重要特征是规划——将复杂任务分解为子任务并以奖励最优的方式完成子任务的能力(Kambhampati等人,2024年)。合成数据在这里可以作为一种宝贵的工具,因为它可以作为从模拟器收集的反馈信号(Park等人,2023年),并且在其上的学习可以使代理意识到可供性(Ahn等人,2022年;Liang等人,2022年)。例如,Inner Monologue(Huang等人,2022年)利用模拟环境生成的自然语言形式反馈教导基于LLM的机器人规划。他们发现这种反馈显著提高了在模拟和真实世界领域的高级指令完成率。为了组成大量现实的规划任务(例如,“重新排列桌子上的物品以匹配给定场景。”),VIMA(Jiang等人,2022年)创建了一个称为VIMA-Bench的多模态模拟环境,支持可扩展的物品和纹理集合。在Minecraft游戏中,Voyager(Wang等人,2023年)部署了多个基于GPT-4的代理与合成环境交互,发现代理能够更快地解锁新技能并在合成反馈的帮助下更有效地完成规划。
2.3 多模态
从视觉到文本的逆向渲染。视觉-语言对齐数据侧重于准确地将视觉输入与LLM(通常通过视觉编码器)对齐。自从CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)以来,网络抓取的图像-标题对在过去几年中一直是最受欢迎的多模态对齐数据。然而,网络抓取的图像-文本对通常很嘈杂,并且只具有粗粒度的对应关系,不足以在语言中对图像的细节进行定位。在文档、屏幕、图表和图解等领域,这种精细的对齐最方便地可以通过构建图像渲染引擎的数据合成流水线获得。Pix2Struct(Lee等人,2023年)使用Web服务器将HTML代码渲染成网站截图,并且训练任务是将遮盖的截图逆向渲染回完整的HTML代码。MatCha(Liu等人,2023b年)和DePlot(Liu等人,2023a年)将表格数据渲染成图表,使用Python绘图库,并通过给出渲染图像并生成代码和/或表格数据来预训练基础模型。Si等人(2024年)和Laurençon等人(2024年)在将网页截图转换为代码实现的任务上对合成生成的HTML和CSS文件进行训练。在合成数据上微调的模型可以在从互联网抓取的现实数据上合理地泛化。Borkman等人(2021年)提议使用物理引擎或游戏引擎(例如Unity)作为合成数据生成器,以帮助计算机视觉研究。多模态指令跟随。多模态LLMs的下游应用需要推理和指令跟随能力。这类数据通常是长形式的问题响应对,人类创建此类数据成本高昂。LLaVA(Liu等人,2024b年)使用现有的图像标题提示GPT-4(仅文本模式)编写多样化和长形式的提示-答案对。在多模态LLM训练期间,使用图像和提示作为输入,而可以隐藏标题和边界框信息。除了图像标题外,其他图像属性信息来源,如对象边界框(Zhao等人,2023年)、OCR(Zhang等人,2023d年)和逆渲染图表(Carbune等人,2024年;Masry等人,2023年)都可以适用于此类图像属性+文本LLM重写合成数据流水线。
2.4 多语言
回译增强。许多多语言语言模型使用回译作为数据增强方法,从单语数据源创建合成的平行训练数据(Bi等人,2021年;Caswell等人,2019年;Liao等人,2021年;Marie等人,2020年;Pham等人,2021年;Sennrich等人,2016年;Xu等人,2022年;Zheng等人,2020年)。例如,Sennrich等人(2016年)将单语目标数据回译成源语言数据,提供额外的平行训练样本,以实质性改善翻译任务。研究人员还探索了回译的不同抽样方法(例如,束搜索、受限抽样、不受限抽样)及其比较效果(Edunov等人,2018年;Graça等人,2019年;Sennrich等人,2016年)。Xu等人(2022年)强调了合成数据的权重和质量对最佳NMT性能的重要性,并提出了一种优化搜索方法与伽马得分比例的方法,以平衡估计的重要性权重和质量。然而,基于回译的合成数据生成也存在一些局限性。例如,合成数据的质量和多样性取决于回译方法的性能。如果合成数据过于嘈杂或不够多样化,性能提升将受限(Chauhan等人,2022年;Epaliyana等人,2021年)。大规模生成多语言问题和答案。最近的研究探索了生成和利用合成多语言问题-答案(QA)对以提高语言模型在多语言和跨语言问题解答中的性能(Abulkhanov等人,2023年;Asai等人,2021年;Chi等人,2020年;Kumar等人,2019年;Li和Callison-Burch,2023年;Riabi等人,2021年)。一种方法是将现有的单语问题和/或答案翻译成其他语言(Asai等人,2021年)。另一种方法涉及使用问题生成(QG)模型根据答案和/或源文本以跨语言方式生成合成问题(Chi等人,2020年;Kumar等人,2019年;Riabi等人,2021年)。最近的努力还集中在联合生成多种语言的问题和答案上,以获得更大的灵活性(Li和Callison-Burch,2023年;Shakeri等人,2021年)。例如,Shakeri等人(2021年)在QA生成任务和多语言遮蔽语言建模任务的混合上对预训练的多语言T5模型(Xue等人,2020年)进行微调,以产生多种语言的合成QA对。这些努力通常表明,训练在合成QA对上的语言模型在多语言QA和信息检索基准测试上表现得更好。
3. 在评估中使用合成数据
合成数据在不同视角的评估中被广泛使用: 事实性。AI系统可能会生成没有基于事实知识或数据的信息或响应,导致误导性或虚假内容的产生,这种现象正式称为幻觉(Ji等人,2023)。事实性评估旨在确保AI系统输出的知识与其训练数据和知识库提供的知识一致(Ji等人,2023;张等人,2023c)。早期基于统计的幻觉评估方法依赖于n-gram来直接计算输入和输出内容之间的词汇重叠(Dhingra等人,2019;Wang等人,2020)。然而,这些方法有限制,因为它们只考虑词汇重叠,没有考虑语义或句子意义(Ji等人,2023),使它们不适合评估更复杂形式的幻觉。后续保证方法从统计方法转向基于模型的方法,与基于令牌差异的方法相比,这些方法更为稳健(Honovich等人,2021)。虽然这些基于模型的评估方法比它们的前身更先进,但仍有局限性。例如,模型只能输出幻觉的程度,可能难以指出具体错误(Falke等人,2019)。Feng等人(2023a)提议将LLM生成与知识图谱上的随机游走相结合,生成用于事实性的合成评估数据,这些数据能识别图中的实体和关系。Wei等人(2024)创建了一个名为LongFact的合成数据集,用于长形事实性评估,并使用谷歌搜索作为基准源和LLM进行自动判断,以实现人类水平的准确性但成本大大降低(Min等人,2023)。
安全性。红队测试是评估AI模型的安全性和健壮性的一种强大技术(Casper等人,2023b;Ganguli等人,2022)。通过生成设计来引发未对齐或有害输出的多样化和现实场景(Casper等人,2023a),红队测试可以暴露AI系统的漏洞和弱点(Perez等人,2022)。例如,Perez等人(2023)使用LMs生成数据集来评估其他LMs的行为。他们最终生成了154个高质量数据集,并由人类验证,发现新的逆向缩放案例,即LMs随着大小增加而变差。Hubinger等人(2024)利用合成数据在大规模触发LMs的后门攻击;他们发现LMs可以表现出欺骗行为,并在此类攻击下创造出安全的假象,而标准的“安全训练”无法轻易消除这种欺骗。这些方法展示了使用AI辅助扩大人类监督的可行性(Bowman等人,2022),处理复杂问题和未见领域。
辅助人类评估。最近的研究表明,在许多情况下,大规模LMs(LLMs)的合成判断可以作为实际人类评估的合格、快速和低成本的替代品(Gilardi等人,2023a)。使用GPT-4作为评判,Alpaca Eval(Li等人,2023b)和MT Bench(Zheng等人,2023)是两个流行的基准测试,用来衡量基于LM的ChatBot的综合能力。在编码任务中,合成环境是帮助人类评估的常见选择,因为人类可以通过实际执行和对运行日志的分析更高效地进行评估。Gu等人(2024)提出了CRUXEval,一个由CodeLLaMA-34B生成的800个Python函数组成的代码执行推理基准。同样,Liu等人(2024a)引入了CodeMind,一个框架,用来衡量LLMs在独立执行推理(IER)、依赖执行推理(DER)和规范推理(SR)上的代码推理能力。所有这些基于合成数据的评估都与真实人类判断有强烈的相关性。
合成数据的挑战与局限
尽管合成数据提供了许多好处和应用,但认识到并解决与其使用相关的潜在挑战和限制至关重要。本节将深入探讨合成数据周围的三个重大问题:
合成数据误用可能导致错误信息的扩散。合成数据的潜在误用是一个重要问题,必须解决以确保AI系统的负责任开发。当前AI模型越来越能够生成类似人类的数据,从文本(Gemini-Team等人,2023,2024),图像(Ramesh等人,2022;Saharia等人,2022b),到视频(例如,OpenAI SORA)。当合成数据用来冒充真实人物、操纵公共意见或影响政治过程时,这可能特别危险。此外,合成数据驱动的错误信息的传播可能会侵蚀对合法信息来源的信任,使人们越来越难以区分真相和谬误(Byman等人,2023;Rid,2020)。为了降低这些风险,对研究人员、开发人员和政策制定者来说,制定清晰的合成数据生成和使用的道德准则和最佳实践至关重要,包括强大的检测和对抗合成错误信息的机制(Groh等人,2022)。通过积极应对这些挑战,我们可以利用合成数据的好处,同时最小化其潜在的危害。
合成数据可能导致AI对齐的模糊不清。在对齐AI模型中使用合成数据的增加(例如,Constitutional AI (Bai等人,2022))可能引入重大的模糊性和不确定性。AI对齐的目标是确保AI系统的行为与人类价值观和意图一致。然而,合成数据是人工生成的,而不是从现实世界来源收集的,可能无法准确代表人类价值观和偏好的细微差别(Zhou等人,2024)。这种差异可能导致AI模型从有偏见的(Feng等人,2023b;Liu等人,2021)、无根据的(Liu等人,2022;Patel和Pavlick,2022)或不代表现实世界情境的数据中学习(Ji等人,2023;Weidinger等人,2021)。因此,受合成数据训练的AI系统可能表现出与人类期望不一致的行为,可能导致意外后果甚至有害行为(Anderljung等人,2023;Zou等人,2023)。此外,合成数据引入的模糊性可能使解释和理解AI模型的决策过程变得复杂(Lightman等人,2023),进一步增加确保对齐的难度。为了降低这些风险,研究人员必须仔细考虑在对齐研究中使用合成数据的局限性和潜在缺陷,并开发出验证和测试受此类数据训练的AI模型的健壮方法。
使用合成数据训练使评估去污染更加困难。在模型训练中使用合成数据对公平评估提出了重大挑战。评估基准通常通过引用公共文本来源(如课程网站或论坛)来创建。因此,可以认为所有公开可用的基准测试案例可能偶尔会被包括在LLMs的预训练数据中(Gao等人,2021;Hoffmann等人,2022)。使用合成数据加剧了这个问题而不是缓解它。尽管社区提出了几种检测此类评估污染的技术,如min-𝑘% prob(Shi等人,2023),检查𝑘长尾词的概率,但当模型使用合成数据训练时,这些令牌级去污染方法是不充分的。合成数据可能包括基准数据的改写版本(Mattern等人,2023;Oren等人,2023),使令牌级去污染无效。除了开发更先进的评估污染检测技术外,我们建议模型开发者投资创建和维护内部和受保护的评估基准。这些专有基准应该被小心保护以防泄漏,并确保评估过程的完整性。
未来工作的方向
随着合成数据领域的不断发展,未来的研究和开发有几个有前景的方向。本节概述了三个需要进一步探索的关键领域: 合成数据的扩展。许多经过过度训练的小型语言模型(例如,Mistral系列模型(Jiang等人,2023年)和Gemma系列模型(Gemma-Team等人,2024年))的印象深刻的表现证明了使用大量令牌进行训练的必要性(甚至超过了计算最优的chinchilla法则(Rae等人,2021年))。然而,使用合成数据进行训练是否有类似的结论仍是一个未解决的问题,因为合成数据的质量可能不如现实世界的数据(Yu等人,2024年)。未来的研究应该调查合成数据的规模化法则,并确定合成样本的数量和质量之间的最佳平衡。这种探索可以帮助我们了解在大规模语言模型训练中利用合成数据的最有效策略,可能导致更高效和更具成本效益的方法(Muennighoff等人,2024年)。
进一步提高合成数据的质量和多样性。尽管现有生成合成数据的方法显示出前景,但在创造高质量、具有真实属性的合成样本方面仍有改进空间,这些样本能够密切模仿现实世界数据。未来的研究应该专注于开发新的高级技术(或基于现有技术如生成对抗网络(GANs)(Goodfellow等人,2020年)或扩散模型(Ho等人,2020年)),这些技术可以控制和操纵生成数据的特定属性,使得创建多样化和可定制的合成数据集成为可能。此外,研究人员应探索可以将领域特定知识整合进来的方法,以确保生成的数据遵循目标领域中存在的底层约束和模式(例如,通过检索增强生成(RAG)(Borgeaud等人,2022年;Lewis等人,2020年))同时保持数据质量。通过推进归因合成数据生成的最新技术,我们可以为隐私保护分析(Assefa等人,2020年)和跨多个领域的模型训练(例如,医疗保健领域的合成医学图像(Frid-Adar等人,2018年;Wei等人,2019年)和金融领域的模拟交易轨迹(Zheng等人,2022年))解锁新的机会。
朝向高保真和更高效的可扩展监督。随着AI模型变得日益复杂和自主,使用传统的依赖人类监督或真实世界数据的监督方法来监控和评估它们的行为变得具有挑战性(Amodei等人,2016年)。未来的研究应探索使用合成数据对这些先进系统进行高保真的可扩展监督。现有方法通常在社会迭代中模拟某些场景,如辩论(Leike等人,2018年)、反思(Zhang等人,2023a)或修订(Liu等人,2023c)以获取合成数据,而新的方法可以涵盖更全面的场景和更多的模态(Sun等人,2023年),因为最近的研究发现许多仅涵盖范围狭窄(Cheng等人,2023年)或过于简化(Zhou等人,2024年)的场景的模拟问题。展望未来,另一个增长方向可能是如何更高效地实现可扩展的监督——鉴于我们完全控制合成数据的生成,我们可能可以提供更有针对性的监督,而使用更少的合成数据。随着对有效的AI治理和监管的需求增长,合成数据将在启用更可信的可扩展监督机制中发挥越来越重要的作用,这些机制促进AI技术的健壮、负责任和安全部署,以造福社会(Askell等人,2021年;Bowman等人,2022年)。
结论
合成数据已经成为解决数据稀缺、隐私担忧和AI开发高成本问题的有前景的解决方案。通过生成逼真和多样化的数据集,合成数据使得在各个领域的大规模AI模型的训练和评估成为可能。随着我们接近人类水平甚至超人类水平的智能,获取合成数据变得更加关键,因为模型需要比平均人类质量更好的数据才能进步。然而,确保合成数据的事实性、保真性和无偏见仍是一个关键挑战。未来关于合成数据的研究方向可以关注提高生成模型的保真性和可控性,并开发标准化的评估和污染协议及工具。我们还可以探索将合成数据与其他技术整合以及在其他领域的应用。尽管存在挑战,但合成数据在推进AI研究方面的潜在好处是显著的。通过负责任和有效地利用合成数据,我们可以构建更强大、更包容、更可信的AI系统,造福整个社会。