【CMU博士论文】现代深度学习高效训练策略的进展：从隐式深度学习到语言模型及其拓展领域

在快速发展的机器学习领域，计算能力和数据的激增推动了深度学习成为学术研究的前沿。随着模型和数据集规模的不断扩大，越来越多的注意力集中在算法改进上，以应对日益增长的计算和内存需求。此外，由于其在广泛应用中的成功，该领域见证了多种多样的神经网络架构的涌现，每种架构都有其独特的训练挑战。本论文介绍了利用模型结构来提高资源和算法效率的流行神经网络架构的高效训练方法。在第一部分中，我们首先提出了针对隐式深度学习模型和基于变压器的语言模型的具有较低计算和内存需求的新训练算法。具体来说，我们首先提出了一种高效的顺序训练方法，用于隐式平衡模型，消除了在现有训练过程中求解计算昂贵的固定点方程和投影步骤的需求。然后，我们引入了方差减少的零阶方法，以仅使用内存高效的推理过程来有效微调大型语言模型。

在第二部分中，我们转向探索可微分优化在元优化和矢量量化中的训练增强应用。具体来说，对于前者，我们提出了一种利用可微分凸优化结构来参数化新型一阶优化器的方法。对于后者，我们引入了可微分凸优化作为一种改进通过矢量量化层反向传播的技术。

我们希望这项工作能为研究社区提供新的视角，并作为进一步发展深度学习高效训练策略的基础。在过去的十年中，人工智能（AI）领域取得了前所未有的进展，这些进展使其在自然语言处理和计算机视觉等多个专门任务领域达到了超越人类的表现。深度学习架构创新和计算改进的协同作用促进了AI的飞跃发展 [1], [2]。

直到最近，深度学习领域的研究通常是专门化的，聚焦于特定领域，如自然语言处理（NLP）或视觉。在每个应用领域，研究的目标是开发旨在解决特定应用挑战的定制神经网络架构。例如，循环神经网络（RNN）及其变体用于处理NLP中常见的序列数据。而视觉应用则常使用卷积神经网络（CNN），因为它们能够高效处理视觉数据。这种专门化被认为是必要的，因为不同的数据模态需要定制的处理方法来学习其潜在模式。这促使了各个领域中架构类型的激增。

最近，变压器和隐式深度学习的引入带来了从开发领域特定架构的转变。变压器模型建立在注意力机制的基础上，这种机制能够处理序列数据中的长期依赖关系，支持并行处理，并且与反向传播兼容。尤其是基于变压器的架构现在在NLP和视觉任务中都成为了最先进模型的标准，设立了性能基准。隐式深度学习则摒弃了将神经网络视为显式、前馈层堆叠的概念，而是通过一组输出应满足的条件隐式地表示它们。这种范式提供了一种具有多种实例的表达模型类别，包括神经常微分方程、可微优化和深度平衡模型。具体而言，文献[3]中展示了隐式模型在许多流行深度学习架构中的推广，并在各种示例应用中表现出色。

新兴的、更具表现力的深度学习架构突显了开发高效优化策略以释放其全部性能潜力的重要性。更具体地说，针对不同架构类型开发优化策略是高效模型训练的基础，它能有效地从数据中学习。这强调了需要不断改进训练技术和架构设计，以充分实现深度学习技术的潜力。

本论文为应对最先进深度学习架构的独特需求，贡献了开发定制训练策略的更广泛努力。第一部分中，我们首先审视了现有隐式深度学习和变压器模型训练方法的资源密集特性，并提出了新算法以克服计算和内存需求的障碍。第二部分我们重点探讨如何利用特定的隐式深度学习实例——可微优化作为一种技术来增强元优化和矢量量化中的训练过程。

第一部分：深度神经架构的高效训练策略

在这一部分中，我们关注流行架构类型在训练中面临的挑战，并提出旨在缓解这些特定挑战的优化算法。具体来说，我们旨在克服现有隐式深度学习和基于变压器的语言模型训练方法中禁止性的计算和内存需求。

**第二章

我们强调了通过固定点方程描述的隐式模型的现有训练方法的缺点：这种端到端优化方案利用了计算繁重的隐式微分和投影步骤。我们提出了一种新的顺序、分块训练算法，适用于上三角隐式深度模型，从而减轻了隐式微分和投影步骤的需求。

**第三章

我们解决了在微调基于变压器的语言模型（LM）时一阶方法的大内存需求。基于零阶（ZO）方法仅使用内存高效的推理过程来估计梯度的观察，我们将ZO方法与方差减少技术结合，以增强基于推理的LM微调的稳定性和收敛性。我们的实验表明，相比于现有的ZO微调基准，我们的方法在保持显著较低内存占用的同时，性能也有了持续的改善。

第二部分：通过可微优化增强训练

在第二部分中，我们集中探讨了如何应用可微优化来改进元优化和矢量量化中的学习过程。

**第四章

我们展示了如何利用凸优化来推广许多现有的一阶更新规则。随后我们提出了一种新的数据驱动优化算法设计方法，利用可微凸优化（DCO）。这种利用以往优化经验的方法可以提出新的更新规则，能够高效解决来自相同基础问题类的新优化任务。通过示例实验，我们展示了DCO优化器在实际应用中能够超越流行的一阶方法。

**第五章

我们利用DCO来缓解矢量量化（VQ）层带来的训练挑战。嵌入VQ的模型在图像和语音生成等多个应用中显示出令人印象深刻的结果。VQ作为一种参数化的K均值算法，在前向传递中使用单个代码本向量对输入进行量化。尽管强大，该技术面临实际挑战，包括代码本坍塌、不可微性和有损压缩。为缓解上述问题，我们提出了软凸量化（SCQ），作为VQ的直接替代。SCQ像一个可微凸优化（DCO）层一样工作：在前向传递中，我们求解出量化输入的最佳凸组合代码本向量。在反向传递中，我们利用前向解决方案的最优性条件进行微分。随后，我们介绍了SCQ优化的可扩展放松，并在CIFAR-10 [4]、GTSRB [5]和LSUN [6]数据集上验证了其有效性。我们训练了强大的SCQ自动编码器模型，这些模型显著超越了匹配的基于VQ的架构，在图像重建和代码本使用方面表现出数量级的提升，同时保持了可比的量化运行时间。