【博士论文】神经语言模型的参数效率，199页pdf - 专知VIP

会员服务 ·

16

大模型 · 预训练语言模型 ·

2024 年 3 月 13 日

【博士论文】神经语言模型的参数效率，199页pdf

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

近年来，预训练的神经语言模型在各种自然语言理解和生成任务上取得了显著的能力。然而，将这些模型扩展到包含数十亿参数的趋势，虽然增强了适应性和新出现的能力，但也因其庞大的规模带来了显著的部署挑战。这些挑战包括对模型存储和实际部署的推理延迟的限制、任务适应所需的密集时间和计算成本，以及影响任务适应性的大量冗余参数的存在。受到这些挑战的驱动，本论文旨在提高这些模型的参数效率，寻求最小化存储需求、加速推理和适应，并增强泛化能力。

-- 在神经语言模型中提高参数利用率

虽然最近的研究发现预训练神经语言模型中存在显著的冗余，但参数冗余对模型泛化能力的影响在很大程度上仍未被深入探讨。我们首先考察参数冗余与模型泛化能力之间的关系。观察到移除冗余参数可以提高泛化能力，我们提出了一种用于微调的自适应优化算法，以提高冗余参数的利用率。实验结果验证了在各种下游任务上增加的泛化能力。

-- 神经语言模型中的模型压缩

我们探索了模型压缩方法，包括权重修剪和知识蒸馏，以减少模型存储并加速推理。我们首先开发了一种可靠的迭代修剪方法，该方法考虑到训练动态中的不确定性。然后，我们深入探讨知识蒸馏领域，解决了常常阻碍学生表现的大教师-学生“知识差距”。为了解决这个问题，我们提供了两种解决方案，通过选择性地蒸馏与任务相关的知识来产生特定任务的学生。在需要学生跨多种任务适应性的情境中，我们提出通过结合迭代修剪和蒸馏来减少知识差距。我们的方法在相似的压缩比率下显著超过传统的蒸馏方法。 -- 神经语言模型中高效的任务适应

虽然微调是实现下游任务满意表现的一种重要适应方法，但它既计算密集又耗时。为了加速任务适应，我们研究了超网络方法，该方法使用辅助超网络基于少量示例迅速生成特定于任务的权重。我们通过利用内在权重结构作为归纳偏差，改进了权重生成方案，提高了超网络训练的样本效率。与现有的超网络方法相比，该方法在未见任务上显示出优越的泛化性能。

https://repository.gatech.edu/entities/publication/b2f1067e-2ee3-4b86-b565-1111a50b2cf5

成为VIP会员查看完整内容

32

相关内容

大模型

大模型是基于海量多源数据打造的预训练模型，是对原有算法模型的技术升级和产品迭代，用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习，以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。

【博士论文】可解释、可信赖和可靠的人工智能，191页pdf

【博士论文】可解释、可信赖和可靠的人工智能，191页pdf

专知会员服务

85+阅读 · 2024年4月9日

【博士论文】生成模型中的可控性与不确定性，214页pdf

【博士论文】生成模型中的可控性与不确定性，214页pdf

专知会员服务

46+阅读 · 2024年3月14日

【博士论文】图神经网络算法推理，135页pdf

【博士论文】图神经网络算法推理，135页pdf

专知会员服务

46+阅读 · 2024年2月23日

【纽约大学博士论文】在大型语言模型时代的自然语言处理评估，152页pdf

【纽约大学博士论文】在大型语言模型时代的自然语言处理评估，152页pdf

专知会员服务

43+阅读 · 2023年12月30日

【纽约大学博士论文】深度学习中的模型和方法解构,395页pdf

【纽约大学博士论文】深度学习中的模型和方法解构,395页pdf

专知会员服务

61+阅读 · 2023年12月27日

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

专知会员服务

74+阅读 · 2023年10月6日

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

专知会员服务

45+阅读 · 2023年9月7日

【MIT博士论文】保证性生成模型，155页pdf

【MIT博士论文】保证性生成模型，155页pdf

专知会员服务

31+阅读 · 2023年8月8日

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

专知会员服务

70+阅读 · 2023年6月8日

【德国杜宾根大学博士论文】深度生成模型的稳定性与表达力，279页pdf

【德国杜宾根大学博士论文】深度生成模型的稳定性与表达力，279页pdf

专知会员服务

46+阅读 · 2020年9月9日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

37+阅读 · 2023年4月13日

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

【2022新书】知识表示和机器学习的预测和分析，232页pdf

【2022新书】知识表示和机器学习的预测和分析，232页pdf

专知

41+阅读 · 2022年3月12日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

14+阅读 · 2018年9月20日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应稀疏算子的图像乘性噪声移除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

Variational Bayesian surrogate modelling with application to robust design optimisation

Arxiv

0+阅读 · 2024年4月23日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【博士论文】可解释、可信赖和可靠的人工智能，191页pdf

【博士论文】可解释、可信赖和可靠的人工智能，191页pdf

专知会员服务

85+阅读 · 2024年4月9日

【博士论文】生成模型中的可控性与不确定性，214页pdf

【博士论文】生成模型中的可控性与不确定性，214页pdf

专知会员服务

46+阅读 · 2024年3月14日

【博士论文】图神经网络算法推理，135页pdf

【博士论文】图神经网络算法推理，135页pdf

专知会员服务

46+阅读 · 2024年2月23日

【纽约大学博士论文】在大型语言模型时代的自然语言处理评估，152页pdf

【纽约大学博士论文】在大型语言模型时代的自然语言处理评估，152页pdf

专知会员服务

43+阅读 · 2023年12月30日

【纽约大学博士论文】深度学习中的模型和方法解构,395页pdf

【纽约大学博士论文】深度学习中的模型和方法解构,395页pdf

专知会员服务

61+阅读 · 2023年12月27日

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

【斯坦福大学博士论文】生成式模型在现实世界应用中的进展，222页pdf

专知会员服务

74+阅读 · 2023年10月6日

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

【斯坦福大学博士论文】面向现实应用的深度生成模型，222页pdf

专知会员服务

45+阅读 · 2023年9月7日

【MIT博士论文】保证性生成模型，155页pdf

【MIT博士论文】保证性生成模型，155页pdf

专知会员服务

31+阅读 · 2023年8月8日

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

【CMU博士论文】基于机器学习的预测: 准确性、可解释性和效率，161页pdf

专知会员服务

70+阅读 · 2023年6月8日

【德国杜宾根大学博士论文】深度生成模型的稳定性与表达力，279页pdf

【德国杜宾根大学博士论文】深度生成模型的稳定性与表达力，279页pdf

专知会员服务

46+阅读 · 2020年9月9日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

37+阅读 · 2023年4月13日

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

【2023新书】深度学习与计算机视觉在遥感中的应用，572页pdf

专知

27+阅读 · 2023年4月6日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

18+阅读 · 2022年7月11日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

【2022新书】知识表示和机器学习的预测和分析，232页pdf

【2022新书】知识表示和机器学习的预测和分析，232页pdf

专知

41+阅读 · 2022年3月12日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

14+阅读 · 2018年9月20日

相关基金

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

Semi-Markovian跳跃系统的分析、控制综合与状态估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应稀疏算子的图像乘性噪声移除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

癌症基因组中关键驱动突变信号通路的理论问题研究及算法设计

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Variational Bayesian surrogate modelling with application to robust design optimisation

Arxiv

0+阅读 · 2024年4月23日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

41+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

172+阅读 · 2023年3月24日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员