摘要 —— 随着ChatGPT的兴起,大型模型的使用显著增加,迅速在整个行业中脱颖而出,并在互联网上广泛传播。本文是对大型模型微调方法的全面综述。本文研究了最新的技术进展以及在诸如任务适应性微调、领域适应性微调、小样本学习、知识蒸馏、多任务学习、高效参数微调和动态微调等方面应用先进方法。 索引术语 —— 大型语言模型(LLMs)、任务适应性微调、领域适应性微调、小样本学习、知识蒸馏、多任务学习、高效参数微调、动态微调 I. 引言 变换器(Transformer)模型的出现标志着自然语言处理(NLP)领域的一个重要里程碑。变换器架构最初是为了解决循环神经网络(RNNs [143])和卷积神经网络(CNNs [55])在处理长距离依赖关系中的局限而设计的,该架构由Vaswani等人在2017年引入[126],彻底改变了我们处理语言理解和生成任务的方式。 变换器架构背景:变换器模型源于对比传统模型更有效处理序列数据的需求。其独特的架构,不依赖递归和卷积,利用注意力机制来抽取输入与输出之间的全局依赖关系,显著提高了处理效率和模型性能。 编码器[19]、解码器[95] [96] [13]以及编解码器[100]架构:变换器架构主要由其编码器和解码器组成。编码器处理输入序列,创建每个词的丰富上下文表征。相比之下,解码器通常在语言翻译任务中生成输出序列,使用编码信息。 两者的区别在于它们的角色:编码器是输入的上下文感知处理器,而解码器基于编码输入生成预测。编解码器架构常用于序列到序列的任务,结合这两个组件,便于处理复杂任务,如机器翻译,编码器处理源语言,解码器生成目标语言。 大型模型中的微调兴起:微调大型语言模型的概念源于将这些模型从训练于庞大、多样的数据集适应到特定任务或领域的挑战。微调调整模型的权重,针对特定任务,增强其从广泛语言模式到特定应用需求的泛化能力。随着模型规模和复杂性的增长,这种方法变得越来越重要,需要更精细的适应技术来充分发挥其潜力。 本文的结构旨在提供关于微调大型语言模型的方法论和进展的全面概览。后续部分的组织如下: 文献回顾:审视语言模型的发展,突出变换器架构的关键发展和基础概念。 理论基础:深入探讨变换器模型的理论基础,包括注意力机制、编码器和解码器的机制。 微调策略:讨论各种微调方法,如任务特定、领域特定的适应和高级技术,如小样本学习和动态微调。 挑战与未来方向:识别微调方法中的当前挑战,并探索这一迅速发展领域的潜在未来研究方向。 本文介绍了基于变换器架构的大型语言模型的范式,并提供了常用的大模型微调方法的详细概述。文章以一个比较实验结束,聚焦于六个文本分类数据集上的模型大小和LoRA微调范式。实验代码已在GitHub上提供。

成为VIP会员查看完整内容
45

相关内容

大型语言模型与智能机器人集成的综述
专知会员服务
64+阅读 · 4月22日
大型语言模型:原理、实现与发展
专知会员服务
101+阅读 · 2023年11月28日
面向算法选择的元学习研究综述
专知会员服务
42+阅读 · 2023年2月11日
小样本困境下的图像语义分割综述
专知会员服务
28+阅读 · 2023年1月24日
预训练语言模型的应用综述
专知会员服务
35+阅读 · 2023年1月23日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
67+阅读 · 2021年10月17日
专知会员服务
50+阅读 · 2021年9月25日
专知会员服务
30+阅读 · 2021年5月8日
专知会员服务
65+阅读 · 2020年12月24日
专知会员服务
223+阅读 · 2020年5月6日
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
知识图谱嵌入(KGE):方法和应用的综述
专知
56+阅读 · 2019年8月25日
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
最全的DNN概述论文:详解前馈、卷积和循环神经网络技术
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
147+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大型语言模型与智能机器人集成的综述
专知会员服务
64+阅读 · 4月22日
大型语言模型:原理、实现与发展
专知会员服务
101+阅读 · 2023年11月28日
面向算法选择的元学习研究综述
专知会员服务
42+阅读 · 2023年2月11日
小样本困境下的图像语义分割综述
专知会员服务
28+阅读 · 2023年1月24日
预训练语言模型的应用综述
专知会员服务
35+阅读 · 2023年1月23日
贝叶斯迁移学习: 迁移学习的概率图模型概述
专知会员服务
67+阅读 · 2021年10月17日
专知会员服务
50+阅读 · 2021年9月25日
专知会员服务
30+阅读 · 2021年5月8日
专知会员服务
65+阅读 · 2020年12月24日
专知会员服务
223+阅读 · 2020年5月6日
相关资讯
智能合约的形式化验证方法研究综述
专知
15+阅读 · 2021年5月8日
图像修复研究进展综述
专知
19+阅读 · 2021年3月9日
事件知识图谱构建技术与应用综述
专知
23+阅读 · 2020年8月6日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
知识图谱嵌入(KGE):方法和应用的综述
专知
56+阅读 · 2019年8月25日
论文浅尝 | 区分概念和实例的知识图谱嵌入方法
开放知识图谱
17+阅读 · 2019年1月19日
最全的DNN概述论文:详解前馈、卷积和循环神经网络技术
CNN 模型压缩与加速算法综述
机器学习研究会
16+阅读 · 2017年8月25日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员