近年来,预训练的神经语言模型在各种自然语言理解和生成任务上取得了显著的能力。然而,将这些模型扩展到包含数十亿参数的趋势,虽然增强了适应性和新出现的能力,但也因其庞大的规模带来了显著的部署挑战。这些挑战包括对模型存储和实际部署的推理延迟的限制、任务适应所需的密集时间和计算成本,以及影响任务适应性的大量冗余参数的存在。受到这些挑战的驱动,本论文旨在提高这些模型的参数效率,寻求最小化存储需求、加速推理和适应,并增强泛化能力。
-- 在神经语言模型中提高参数利用率
虽然最近的研究发现预训练神经语言模型中存在显著的冗余,但参数冗余对模型泛化能力的影响在很大程度上仍未被深入探讨。我们首先考察参数冗余与模型泛化能力之间的关系。观察到移除冗余参数可以提高泛化能力,我们提出了一种用于微调的自适应优化算法,以提高冗余参数的利用率。实验结果验证了在各种下游任务上增加的泛化能力。
-- 神经语言模型中的模型压缩
我们探索了模型压缩方法,包括权重修剪和知识蒸馏,以减少模型存储并加速推理。我们首先开发了一种可靠的迭代修剪方法,该方法考虑到训练动态中的不确定性。然后,我们深入探讨知识蒸馏领域,解决了常常阻碍学生表现的大教师-学生“知识差距”。为了解决这个问题,我们提供了两种解决方案,通过选择性地蒸馏与任务相关的知识来产生特定任务的学生。在需要学生跨多种任务适应性的情境中,我们提出通过结合迭代修剪和蒸馏来减少知识差距。我们的方法在相似的压缩比率下显著超过传统的蒸馏方法。 -- 神经语言模型中高效的任务适应
虽然微调是实现下游任务满意表现的一种重要适应方法,但它既计算密集又耗时。为了加速任务适应,我们研究了超网络方法,该方法使用辅助超网络基于少量示例迅速生成特定于任务的权重。我们通过利用内在权重结构作为归纳偏差,改进了权重生成方案,提高了超网络训练的样本效率。与现有的超网络方法相比,该方法在未见任务上显示出优越的泛化性能。
https://repository.gatech.edu/entities/publication/b2f1067e-2ee3-4b86-b565-1111a50b2cf5