1 引言

预训练语言模型(PLMs)正在改变自然语言处理(NLP)领域,展现出从复杂且多样化的领域中学习和建模自然语言数据底层分布的卓越能力(Han 等, 2021)。然而,这些模型的训练通常需要大量数据和计算资源,这在许多现实场景中可能是难以承受的(Bai 等, 2024),尤其是在非英语语言和特定领域中,例如医学(Crema 等, 2023;Van Veen 等, 2023)、化学(Jablonka 等, 2024)、法律(Noguti 等, 2023)、金融(Zhao 等, 2021)、工程(Beltagy 等, 2019)等。应对这一常见问题的主要方法依赖于迁移学习范式,该范式包括在大量通用或混合领域数据上的自监督预训练阶段,随后是针对领域和任务的领域适应和微调或少样本学习阶段。然而,这一过程的第二阶段同样对数据需求很高。数据稀缺可能导致过拟合、泛化能力差以及性能欠佳的问题。在有限数据条件下微调PLMs需要慎重选择预训练策略、领域适应方法和高效的参数优化,以通过有效利用模型的已有知识实现最佳性能,同时避免灾难性遗忘(Kirkpatrick 等, 2017;Ramasesh 等, 2021)。 本文旨在解决在有限数据情况下训练大型语言模型(LLMs)的挑战,特别是在低资源语言和特定领域中。我们通过探索迁移学习的最新进展(见表1),对这一问题进行了深入研究。本文进行了一项系统性的综述,起始于从Scopus、Web of Science、Google Scholar和ACL Anthology中收集的超过2500篇论文。这篇综述面向NLP领域的研究人员和实践者,概述了当前最先进的方法,并为数据稀缺场景下优化模型性能提供了实用指南。 我们集中探讨了以下几个方面:

在低资源场景下有效利用先验知识的(持续)预训练方法的选择 (§ 3);

在微调 (§ 4) 和少样本学习 (§ 5) 过程中最大化有限数据的效用;

讨论各种迁移学习策略的假设、优点和局限性,并强调对研究人员来说尚未解决的挑战;

从任务特定的视角出发,提供针对不同数据稀缺程度的实用指导 (§ 6)。

希望本文能为研究人员和实践者提供克服数据受限挑战的全面视角,同时指出未来研究的潜在方向。

成为VIP会员查看完整内容
25

相关内容

关于用于算法设计的大型语言模型的系统性综述
专知会员服务
39+阅读 · 2024年10月26日
大语言模型的终身学习综述
专知会员服务
67+阅读 · 2024年6月15日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
73+阅读 · 2024年5月3日
《大型语言模型持续学习》综述
专知会员服务
82+阅读 · 2024年4月26日
大型语言模型的高效提示方法综述
专知会员服务
71+阅读 · 2024年4月2日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
19+阅读 · 2019年10月28日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
160+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
419+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关主题
相关VIP内容
关于用于算法设计的大型语言模型的系统性综述
专知会员服务
39+阅读 · 2024年10月26日
大语言模型的终身学习综述
专知会员服务
67+阅读 · 2024年6月15日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
73+阅读 · 2024年5月3日
《大型语言模型持续学习》综述
专知会员服务
82+阅读 · 2024年4月26日
大型语言模型的高效提示方法综述
专知会员服务
71+阅读 · 2024年4月2日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
19+阅读 · 2019年10月28日
NLP命名实体识别开源实战教程 | 深度应用
AI100
15+阅读 · 2019年8月18日
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
使用 Bert 预训练模型文本分类(内附源码)
数据库开发
102+阅读 · 2019年3月12日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员