使用有限数据微调语言模型的实用指南 - 专知VIP

会员服务 ·

17

大语言模型 ·

2024 年 11 月 18 日

使用有限数据微调语言模型的实用指南

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

1 引言

预训练语言模型（PLMs）正在改变自然语言处理（NLP）领域，展现出从复杂且多样化的领域中学习和建模自然语言数据底层分布的卓越能力（Han 等, 2021）。然而，这些模型的训练通常需要大量数据和计算资源，这在许多现实场景中可能是难以承受的（Bai 等, 2024），尤其是在非英语语言和特定领域中，例如医学（Crema 等, 2023；Van Veen 等, 2023）、化学（Jablonka 等, 2024）、法律（Noguti 等, 2023）、金融（Zhao 等, 2021）、工程（Beltagy 等, 2019）等。应对这一常见问题的主要方法依赖于迁移学习范式，该范式包括在大量通用或混合领域数据上的自监督预训练阶段，随后是针对领域和任务的领域适应和微调或少样本学习阶段。然而，这一过程的第二阶段同样对数据需求很高。数据稀缺可能导致过拟合、泛化能力差以及性能欠佳的问题。在有限数据条件下微调PLMs需要慎重选择预训练策略、领域适应方法和高效的参数优化，以通过有效利用模型的已有知识实现最佳性能，同时避免灾难性遗忘（Kirkpatrick 等, 2017；Ramasesh 等, 2021）。本文旨在解决在有限数据情况下训练大型语言模型（LLMs）的挑战，特别是在低资源语言和特定领域中。我们通过探索迁移学习的最新进展（见表1），对这一问题进行了深入研究。本文进行了一项系统性的综述，起始于从Scopus、Web of Science、Google Scholar和ACL Anthology中收集的超过2500篇论文。这篇综述面向NLP领域的研究人员和实践者，概述了当前最先进的方法，并为数据稀缺场景下优化模型性能提供了实用指南。我们集中探讨了以下几个方面：

在低资源场景下有效利用先验知识的（持续）预训练方法的选择 (§ 3)；

在微调 (§ 4) 和少样本学习 (§ 5) 过程中最大化有限数据的效用；

讨论各种迁移学习策略的假设、优点和局限性，并强调对研究人员来说尚未解决的挑战；

从任务特定的视角出发，提供针对不同数据稀缺程度的实用指导 (§ 6)。

希望本文能为研究人员和实践者提供克服数据受限挑战的全面视角，同时指出未来研究的潜在方向。

成为VIP会员查看完整内容

27

相关内容

用于人工通用智能（AGI）的大型语言模型：基础原则和方法综述

用于人工通用智能（AGI）的大型语言模型：基础原则和方法综述

专知会员服务

31+阅读 · 1月7日

关于用于算法设计的大型语言模型的系统性综述

关于用于算法设计的大型语言模型的系统性综述

专知会员服务

40+阅读 · 2024年10月26日

大型语言模型在不同自然语言处理任务中的提示工程方法综述

大型语言模型在不同自然语言处理任务中的提示工程方法综述

专知会员服务

58+阅读 · 2024年7月21日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

86+阅读 · 2024年5月3日

《大型语言模型持续学习》综述

《大型语言模型持续学习》综述

专知会员服务

92+阅读 · 2024年4月26日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

74+阅读 · 2024年4月2日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

71+阅读 · 2024年1月3日

大模型如何做知识编辑？弗吉尼亚大学最新《大型语言模型的知识编辑》综述

大模型如何做知识编辑？弗吉尼亚大学最新《大型语言模型的知识编辑》综述

专知会员服务

64+阅读 · 2023年10月26日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

95+阅读 · 2023年8月31日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

布尔可满足性算法和单调布尔函数的复杂性

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

13+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

大语言模型

相关VIP内容

用于人工通用智能（AGI）的大型语言模型：基础原则和方法综述

用于人工通用智能（AGI）的大型语言模型：基础原则和方法综述

专知会员服务

31+阅读 · 1月7日

关于用于算法设计的大型语言模型的系统性综述

关于用于算法设计的大型语言模型的系统性综述

专知会员服务

40+阅读 · 2024年10月26日

大型语言模型在不同自然语言处理任务中的提示工程方法综述

大型语言模型在不同自然语言处理任务中的提示工程方法综述

专知会员服务

58+阅读 · 2024年7月21日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

86+阅读 · 2024年5月3日

《大型语言模型持续学习》综述

《大型语言模型持续学习》综述

专知会员服务

92+阅读 · 2024年4月26日

大型语言模型的高效提示方法综述

大型语言模型的高效提示方法综述

专知会员服务

74+阅读 · 2024年4月2日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

71+阅读 · 2024年1月3日

大模型如何做知识编辑？弗吉尼亚大学最新《大型语言模型的知识编辑》综述

大模型如何做知识编辑？弗吉尼亚大学最新《大型语言模型的知识编辑》综述

专知会员服务

64+阅读 · 2023年10月26日

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

KnowledGPT:基于知识库的检索和存储访问增强大型语言模型

专知会员服务

95+阅读 · 2023年8月31日

热门VIP内容

开通专知VIP会员享更多权益服务

【普林斯顿博士论文】在线学习：优化、控制与学习理论

不确定环境下无人机三维路径规划研究 | 221页

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

大语言模型将如何改变军事指挥结构

相关资讯

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

如何使用自然语言工具包(NLTK)在Python3中执行情感分析

Python程序员

21+阅读 · 2019年10月28日

NLP命名实体识别开源实战教程 | 深度应用

NLP命名实体识别开源实战教程 | 深度应用

AI100

15+阅读 · 2019年8月18日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

使用 Bert 预训练模型文本分类（内附源码）

使用 Bert 预训练模型文本分类（内附源码）

数据库开发

102+阅读 · 2019年3月12日

深度学习与计算机视觉任务应用综述

深度学习与计算机视觉任务应用综述

深度学习与NLP

50+阅读 · 2018年12月18日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

相关基金

核心化算法中的新技术研究

国家自然科学基金

8+阅读 · 2017年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

布尔可满足性算法和单调布尔函数的复杂性

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

13+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员