近年来,预训练的神经语言模型在各种自然语言理解和生成任务上取得了显著的能力。然而,将这些模型扩展到包含数十亿参数的趋势,虽然增强了适应性和新出现的能力,但也因其庞大的规模带来了显著的部署挑战。这些挑战包括对模型存储和实际部署的推理延迟的限制、任务适应所需的密集时间和计算成本,以及影响任务适应性的大量冗余参数的存在。受到这些挑战的驱动,本论文旨在提高这些模型的参数效率,寻求最小化存储需求、加速推理和适应,并增强泛化能力。

-- 在神经语言模型中提高参数利用率

虽然最近的研究发现预训练神经语言模型中存在显著的冗余,但参数冗余对模型泛化能力的影响在很大程度上仍未被深入探讨。我们首先考察参数冗余与模型泛化能力之间的关系。观察到移除冗余参数可以提高泛化能力,我们提出了一种用于微调的自适应优化算法,以提高冗余参数的利用率。实验结果验证了在各种下游任务上增加的泛化能力。

-- 神经语言模型中的模型压缩

我们探索了模型压缩方法,包括权重修剪和知识蒸馏,以减少模型存储并加速推理。我们首先开发了一种可靠的迭代修剪方法,该方法考虑到训练动态中的不确定性。然后,我们深入探讨知识蒸馏领域,解决了常常阻碍学生表现的大教师-学生“知识差距”。为了解决这个问题,我们提供了两种解决方案,通过选择性地蒸馏与任务相关的知识来产生特定任务的学生。在需要学生跨多种任务适应性的情境中,我们提出通过结合迭代修剪和蒸馏来减少知识差距。我们的方法在相似的压缩比率下显著超过传统的蒸馏方法。 -- 神经语言模型中高效的任务适应

虽然微调是实现下游任务满意表现的一种重要适应方法,但它既计算密集又耗时。为了加速任务适应,我们研究了超网络方法,该方法使用辅助超网络基于少量示例迅速生成特定于任务的权重。我们通过利用内在权重结构作为归纳偏差,改进了权重生成方案,提高了超网络训练的样本效率。与现有的超网络方法相比,该方法在未见任务上显示出优越的泛化性能。

https://repository.gatech.edu/entities/publication/b2f1067e-2ee3-4b86-b565-1111a50b2cf5

成为VIP会员查看完整内容
30

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
【博士论文】图神经网络算法推理,135页pdf
专知会员服务
39+阅读 · 2月23日
【MIT博士论文】保证性生成模型,155页pdf
专知会员服务
29+阅读 · 2023年8月8日
【MIT博士论文】数据高效强化学习,176页pdf
【优青论文】深度神经网络压缩与加速综述
计算机研究与发展
14+阅读 · 2018年9月20日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
53+阅读 · 2023年3月26日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员