【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练 - 专知VIP

会员服务 ·

11

KDD 2024 · 大型语言模型 · 上下文学习 ·

2024 年 5 月 21 日

【KDD2024】MAML-en-LLM: 用于改进上下文学习的大型语言模型的模型无关元训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

将大型语言模型（LLMs）适应未见任务，并利用上下文训练样本而无需微调，仍然是一个重要的研究问题。为了学习能够很好地适应未见任务的鲁棒LLM，已经提出了多种元训练方法，例如MetaICL和MetaICT，它们涉及在各种不同任务上对预训练的LLMs进行元训练。这些元训练方法本质上执行了上下文多任务微调，并在不相交的测试任务集上进行评估。尽管它们取得了令人印象深刻的性能，但其目标从来不是计算出真正通用的一组参数。在本文中，我们提出了一种新的LLM元训练方法——MAML-en-LLM，它能够学习真正可泛化的参数，不仅在不相交的任务上表现出色，还能适应未见任务。我们观察到在未见领域上性能平均提高了2%，而在适应性能上则大幅提高了4%。此外，我们证明了MAML-en-LLM在训练数据量有限的情况下，在已见和未见领域上均优于基线方法，平均提升了2%。最后，我们讨论了任务类型、优化器和任务复杂性的影响，这是元训练文献中几乎未被探索的领域。在7种任务设置和两种数据设置下进行的详尽实验表明，使用MAML-en-LLM训练的模型在性能上优于现有的元训练方法。

成为VIP会员查看完整内容

19

相关内容

KDD 2024

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

专知会员服务

34+阅读 · 2023年12月28日

【AAAI2024】LAMM: 多模态提示学习的标签对齐

【AAAI2024】LAMM: 多模态提示学习的标签对齐

专知会员服务

41+阅读 · 2023年12月14日

【KDD2023】GraphGLOW：面向图神经网络的通用和可泛化的结构学习

【KDD2023】GraphGLOW：面向图神经网络的通用和可泛化的结构学习

专知会员服务

30+阅读 · 2023年6月24日

【ICML2023】MetaModulation: 用更少任务进行小样本学习的变分特征层次结构学习

【ICML2023】MetaModulation: 用更少任务进行小样本学习的变分特征层次结构学习

专知会员服务

34+阅读 · 2023年5月22日

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【NeurIPS2021】模型可解释性的符号语言基础

专知会员服务

22+阅读 · 2021年10月8日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知会员服务

37+阅读 · 2021年3月28日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

Plum: Prompt Learning using Metaheuristic

Arxiv

0+阅读 · 2024年6月30日

Resilient functions: Optimized, simplified, and generalized

Arxiv

0+阅读 · 2024年6月27日

$μ$GUIDE: a framework for quantitative imaging via generalized uncertainty-driven inference using deep learning

Arxiv

0+阅读 · 2024年6月27日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

VIP会员

相关主题

大型语言模型

上下文学习

相关VIP内容

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

【AAAI2024】TimesURL: 自监着对比学习在通用时间序列表征学习中的应用

专知会员服务

34+阅读 · 2023年12月28日

【AAAI2024】LAMM: 多模态提示学习的标签对齐

【AAAI2024】LAMM: 多模态提示学习的标签对齐

专知会员服务

41+阅读 · 2023年12月14日

【KDD2023】GraphGLOW：面向图神经网络的通用和可泛化的结构学习

【KDD2023】GraphGLOW：面向图神经网络的通用和可泛化的结构学习

专知会员服务

30+阅读 · 2023年6月24日

【ICML2023】MetaModulation: 用更少任务进行小样本学习的变分特征层次结构学习

【ICML2023】MetaModulation: 用更少任务进行小样本学习的变分特征层次结构学习

专知会员服务

34+阅读 · 2023年5月22日

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

【NeurIPS2021】模型可解释性的符号语言基础

专知会员服务

22+阅读 · 2021年10月8日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知会员服务

37+阅读 · 2021年3月28日

【EMNLP2020】自然语言分类任务的自监督元学习

专知会员服务

30+阅读 · 2020年9月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国海军陆战队软件定义网络应用案例：分布式防火墙自动化系统》148页

《多体环境下定位导航授时（PNT）系统研究》228页

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

《攻势防空作战中无人追击者/规避者最优轨迹研究（含动态交战区建模）》95页

相关资讯

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

【CVPR2021】CausalVAE: 引入因果结构的解耦表示学习

专知

19+阅读 · 2021年3月28日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知

17+阅读 · 2020年6月7日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

开放知识图谱

20+阅读 · 2018年9月26日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

基于图论方法的DNA序列编码研究

国家自然科学基金

2+阅读 · 2016年12月31日

关于随机MAX SAT和(2+p)-SAT模型可满足阈值的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Plum: Prompt Learning using Metaheuristic

Arxiv

0+阅读 · 2024年6月30日

Resilient functions: Optimized, simplified, and generalized

Arxiv

0+阅读 · 2024年6月27日

$μ$GUIDE: a framework for quantitative imaging via generalized uncertainty-driven inference using deep learning

Arxiv

0+阅读 · 2024年6月27日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

61+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

78+阅读 · 2023年3月26日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员