在大规模语料库上进行预训练已经成为构建通用语言模型(LMs)的标准方法。适应新的数据分布以针对不同的下游任务是一项重大挑战。简单的微调可能会导致灾难性的遗忘,当超参数化的LMs过度拟合新数据但无法保留预训练特征时。终身学习(LLL)的目标是使信息系统能够在时间跨度上从连续数据流中学习。然而,大部分先前的工作都是修改训练策略,假定网络架构是静态固定的。我们发现额外的模型容量和适当的正则化是实现强大LLL性能的关键元素。因此,我们提出了Lifelong-MoE,这是一个可扩展的MoE(专家混合)架构,通过添加带有正则化预训练的专家动态增加模型容量。我们的结果表明,只引入有限数量的额外专家同时保持计算成本恒定,我们的模型可以稳定地适应数据分布的变化同时保留先前的知识。与现有的终身学习方法相比,LifelongMoE在19个下游NLP任务上实现了更好的少样本性能。

https://arxiv.org/abs/2305.12281

成为VIP会员查看完整内容
18

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。
【CVPR2022】基于知识蒸馏的高效预训练
专知会员服务
28+阅读 · 2022年4月23日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
25+阅读 · 2022年1月24日
专知会员服务
17+阅读 · 2021年9月13日
专知会员服务
17+阅读 · 2021年8月15日
专知会员服务
28+阅读 · 2021年7月19日
专知会员服务
78+阅读 · 2021年5月10日
【GPT-3作者亲解】超大型语言模型少样本学习,109页ppt
专知会员服务
85+阅读 · 2020年12月19日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
0+阅读 · 2022年8月31日
【ICML2022】几何多模态对比表示学习
专知
1+阅读 · 2022年7月17日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
A Survey of Large Language Models
Arxiv
45+阅读 · 3月31日
Conditional Prompt Learning for Vision-Language Models
Arxiv
11+阅读 · 2022年3月10日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关VIP内容
【CVPR2022】基于知识蒸馏的高效预训练
专知会员服务
28+阅读 · 2022年4月23日
【AAAI2022】基于对比学习的预训练语言模型剪枝压缩
专知会员服务
25+阅读 · 2022年1月24日
专知会员服务
17+阅读 · 2021年9月13日
专知会员服务
17+阅读 · 2021年8月15日
专知会员服务
28+阅读 · 2021年7月19日
专知会员服务
78+阅读 · 2021年5月10日
【GPT-3作者亲解】超大型语言模型少样本学习,109页ppt
专知会员服务
85+阅读 · 2020年12月19日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
微信扫码咨询专知VIP会员