近年来,深度学习取得了显著进展。然而,其理论基础,尤其在大模型领域,仍然相对滞后。本文的研究重点在于将坚实的理论基础与大模型高效扩展的实际应用相结合。 在论文的第一部分中,我们聚焦于神经网络的训练动态,讨论了过参数化神经网络的理论。我们将简要介绍神经切线核(Neural Tangent Kernel,NTK)的理论,并深入探讨超参数迁移,这是一种重要的张量程序框架应用。我们将回顾一些奠定 NTK 作为研究领域的早期论文,并讨论 NTK 的局限性。超参数迁移是一种新颖且高效的超参数调整范式,它提供了扩展模型的最优策略。我们将介绍深度神经网络训练动态的特征化,并提出一种高效的超参数选择方案,其中通过在浅层网络上调优选定的最优超参数同样适用于深层网络。 论文的第二部分集中于大模型扩展中的数据方面。我们首先介绍 Skill-Mix,这是一种新颖且独特的评估方法,避免了传统大型语言模型(LLM)评估中的数据污染和为排行榜“临时抱佛脚”的问题。Skill-Mix 随机选择 k 种语言技能,然后提示 LLM 生成展示所选技能的简洁文本。技能组合数量的指数级增长有效防止了数据污染,并进一步揭示了强大的 LLM 成功作答的创新性。接着,我们介绍了 ConceptMix,这是 Skill-Mix 的扩展,用于评估文本生成图像模型结合 k 个随机选定视觉概念的能力。最后,我们探讨了 LLM 在给出优质 Skill-Mix 回答的情况下,学习和泛化技能组合的能力。结果表明,几千条这样的数据足以显著提高模型在未见过的技能组合上的表现,甚至超越了尺寸更大的模型。这表明,将富含技能的合成文本融入训练数据,是一种高效扩展数据规模的途径。
在过去的十年里,深度学习在多个领域取得了显著进展,尤其是在计算机视觉和自然语言处理方面。这些成就通常归因于模型规模和数据的扩展。ImageNet [Deng et al., 2009] 通过提供一个大规模且标注丰富的数据集,极大推动了计算机视觉的发展,促成了更优模型的产生。ResNet [He et al., 2016a] 通过引入残差连接,革新了深度学习,使得超深网络的有效训练成为可能,从而利用增加的模型规模提升性能。最近,随着大规模语言模型(LLM)规模的不断扩展,并在更大规模的语料库上进行训练,LLM 展现出了新的能力,例如少样本上下文学习、推理和解决数学问题 [Brown et al., 2020, OpenAI, 2023]。
总的来说,扩展过程——即模型规模和数据集的扩大——对于开发能够执行具有人类或超人准确性与适应性的强大 AI 模型至关重要。然而,这个过程的代价高昂,训练大型 AI 模型,如 LLaMA-2 [Touvron et al., 2023] 和 GPT-4 [OpenAI, 2023],需要耗费数千万甚至数亿美元的计算资源。 本论文旨在深入理解扩展背后的原理,并使扩展过程更为高效,以较少的计算资源实现更高的性能。我们的工作分为两个部分,分别探讨扩展的两个关键方面:模型规模和数据。