【普林斯顿博士论文】大型模型的高效扩展：优化原则与数据方面

近年来，深度学习取得了显著进展。然而，其理论基础，尤其在大模型领域，仍然相对滞后。本文的研究重点在于将坚实的理论基础与大模型高效扩展的实际应用相结合。在论文的第一部分中，我们聚焦于神经网络的训练动态，讨论了过参数化神经网络的理论。我们将简要介绍神经切线核（Neural Tangent Kernel，NTK）的理论，并深入探讨超参数迁移，这是一种重要的张量程序框架应用。我们将回顾一些奠定 NTK 作为研究领域的早期论文，并讨论 NTK 的局限性。超参数迁移是一种新颖且高效的超参数调整范式，它提供了扩展模型的最优策略。我们将介绍深度神经网络训练动态的特征化，并提出一种高效的超参数选择方案，其中通过在浅层网络上调优选定的最优超参数同样适用于深层网络。论文的第二部分集中于大模型扩展中的数据方面。我们首先介绍 Skill-Mix，这是一种新颖且独特的评估方法，避免了传统大型语言模型（LLM）评估中的数据污染和为排行榜“临时抱佛脚”的问题。Skill-Mix 随机选择 k 种语言技能，然后提示 LLM 生成展示所选技能的简洁文本。技能组合数量的指数级增长有效防止了数据污染，并进一步揭示了强大的 LLM 成功作答的创新性。接着，我们介绍了 ConceptMix，这是 Skill-Mix 的扩展，用于评估文本生成图像模型结合 k 个随机选定视觉概念的能力。最后，我们探讨了 LLM 在给出优质 Skill-Mix 回答的情况下，学习和泛化技能组合的能力。结果表明，几千条这样的数据足以显著提高模型在未见过的技能组合上的表现，甚至超越了尺寸更大的模型。这表明，将富含技能的合成文本融入训练数据，是一种高效扩展数据规模的途径。

引言

在过去的十年里，深度学习在多个领域取得了显著进展，尤其是在计算机视觉和自然语言处理方面。这些成就通常归因于模型规模和数据的扩展。ImageNet [Deng et al., 2009] 通过提供一个大规模且标注丰富的数据集，极大推动了计算机视觉的发展，促成了更优模型的产生。ResNet [He et al., 2016a] 通过引入残差连接，革新了深度学习，使得超深网络的有效训练成为可能，从而利用增加的模型规模提升性能。最近，随着大规模语言模型（LLM）规模的不断扩展，并在更大规模的语料库上进行训练，LLM 展现出了新的能力，例如少样本上下文学习、推理和解决数学问题 [Brown et al., 2020, OpenAI, 2023]。

总的来说，扩展过程——即模型规模和数据集的扩大——对于开发能够执行具有人类或超人准确性与适应性的强大 AI 模型至关重要。然而，这个过程的代价高昂，训练大型 AI 模型，如 LLaMA-2 [Touvron et al., 2023] 和 GPT-4 [OpenAI, 2023]，需要耗费数千万甚至数亿美元的计算资源。本论文旨在深入理解扩展背后的原理，并使扩展过程更为高效，以较少的计算资源实现更高的性能。我们的工作分为两个部分，分别探讨扩展的两个关键方面：模型规模和数据。

首先，我们研究了高效扩展模型规模的优化策略，重点是选择随着模型规模增长的理论最优超参数。 实际上，计算资源的限制使得对巨大模型进行广泛的超参数搜索变得困难。为了解决这个问题，通常会对不同规模的小模型进行最优超参数的搜索，并外推得出大模型的近似最优超参数。然而，随着模型规模的增长，超参数的最佳变化方式——即超参数的扩展策略——往往无法通过少量数据点准确测量。因此，我们旨在建立扩展策略的理论理解，从而能够通过一个小模型的最优超参数来预测大模型的最优超参数。正式地说，我们回答以下问题：**在数据集和模型架构固定的情况下，随着模型规模的增长，超参数的最优扩展策略是什么？**为了解决这一问题，我们研究了模型在优化过程中规模趋于无穷大时的渐近行为。我们发现这些行为受超参数扩展策略（即超参数如何随模型规模变化）的控制。我们根据其导致的渐近行为对这些扩展策略进行了分类，并确定了最优扩展策略。通过这种最优扩展策略，可以广泛搜索一个小模型的最优超参数，并将其直接转换为大模型的近似最优超参数。这样的超参数调整方案被称为“超参数迁移”，它大大降低了大型模型开发的计算成本。
接下来，我们探讨了当训练数据扩展时，大型 AI 模型的技能组合能力。 对于模型如何从更多数据中学习到新的能力，有两种不同的解释：一种是“随机鹦鹉”观点 [Bender et al., 2021]，另一种是技能组合观点 [Arora 和 Goyal, 2023]。前者认为模型学习的是训练数据中已有的能力，因此更多的数据意味着更多的能力。后者则使用随机图论构建了一个统计框架，证明技能组合能力可以通过扩展模型规模而涌现。随着组合更多技能的能力，模型能够解决训练中未曾见过的新任务。在论文的第二部分中，我们首先构建了评估方法，来测量 AI 模型组合 k 个随机选择的技能的能力。评估结果验证了技能组合观点，并表明像 GPT-4 这样的顶级模型已经超越了“随机鹦鹉”的行为。此外，我们的评估具有灵活性、可控的难度等级，并且通过选择足够大的 k 避免了数据污染问题。我们观察到，较小的模型在组合 3 个技能时遇到了困难。一个自然的问题是，这些较小的模型是否可以通过从技能丰富的数据中学习来获得技能组合能力。我们基于评估生成技能丰富的训练数据，并观察到其在提升模型技能组合能力方面的有效性。这为通过生成高质量训练数据来高效扩展数据规模，提供了一个有前景的方向。

成为VIP会员查看完整内容

相关内容

博士论文

关注 100

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【MIT博士论文】物理启发的生成式模型

专知会员服务

20+阅读 · 9月6日

【MIT博士论文】理解与提升机器学习模型的表征鲁棒性

专知会员服务

20+阅读 · 8月26日

【牛津大学博士论文】生成建模：解决模型错误指定和差分隐私中的开放问题

专知会员服务

20+阅读 · 8月17日

【MIT博士论文】高效的鲁棒性和可解释性在学习和数据驱动决策中的应用

专知会员服务

38+阅读 · 7月21日