【ICML2023】终身语言预训练与分布式专业化专家 - 专知VIP

会员服务 ·

12

ICML 2023 · 终身学习 · 预训练模型 ·

2023 年 5 月 26 日

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在大规模语料库上进行预训练已经成为构建通用语言模型（LMs）的标准方法。适应新的数据分布以针对不同的下游任务是一项重大挑战。简单的微调可能会导致灾难性的遗忘，当超参数化的LMs过度拟合新数据但无法保留预训练特征时。终身学习（LLL）的目标是使信息系统能够在时间跨度上从连续数据流中学习。然而，大部分先前的工作都是修改训练策略，假定网络架构是静态固定的。我们发现额外的模型容量和适当的正则化是实现强大LLL性能的关键元素。因此，我们提出了Lifelong-MoE，这是一个可扩展的MoE（专家混合）架构，通过添加带有正则化预训练的专家动态增加模型容量。我们的结果表明，只引入有限数量的额外专家同时保持计算成本恒定，我们的模型可以稳定地适应数据分布的变化同时保留先前的知识。与现有的终身学习方法相比，LifelongMoE在19个下游NLP任务上实现了更好的少样本性能。

https://arxiv.org/abs/2305.12281

成为VIP会员查看完整内容

27

相关内容

ICML 2023

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议。 2023年7月23日至29日周六在夏威夷会议中心举行。

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

专知会员服务

33+阅读 · 2023年6月11日

【CVPR2023】带有噪声标签的孪生对比学习

【CVPR2023】带有噪声标签的孪生对比学习

专知会员服务

33+阅读 · 2023年3月16日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

专知会员服务

20+阅读 · 2022年12月1日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【ICML2021】学会用长序列记忆来排练

专知会员服务

16+阅读 · 2021年6月4日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

专知

6+阅读 · 2022年12月1日

EMNLP 2022 | 预训练语言模型的时空效率优化

EMNLP 2022 | 预训练语言模型的时空效率优化

PaperWeekly

1+阅读 · 2022年11月20日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知

3+阅读 · 2022年8月17日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

专知

32+阅读 · 2019年8月17日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

外部介入式重大工程建设组织学习机制及其对关联组织能力的影响研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向动态语言程序的缺陷理解研究

国家自然科学基金

0+阅读 · 2014年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

基于模型检测的非确定性概率模型学习

国家自然科学基金

2+阅读 · 2013年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

基于智能多模型粒子滤波的运动物体状态估计研究

国家自然科学基金

0+阅读 · 2008年12月31日

复杂系统故障早期多变量序列的混沌模式分析和预测

国家自然科学基金

0+阅读 · 2008年12月31日

Intent-calibrated Self-training for Answer Selection in Open-domain Dialogues

Arxiv

0+阅读 · 2023年7月13日

TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities

Arxiv

0+阅读 · 2023年7月11日

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

Arxiv

22+阅读 · 2023年5月3日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

VIP会员

相关主题

预训练模型

相关VIP内容

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

专知会员服务

33+阅读 · 2023年6月11日

【CVPR2023】带有噪声标签的孪生对比学习

【CVPR2023】带有噪声标签的孪生对比学习

专知会员服务

33+阅读 · 2023年3月16日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

35+阅读 · 2023年2月15日

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

专知会员服务

20+阅读 · 2022年12月1日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CMU博士论文】面向分布偏移的自然语言处理学习神经模型，148页pdf

专知会员服务

37+阅读 · 2021年9月7日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【ICML2021】学会用长序列记忆来排练

专知会员服务

16+阅读 · 2021年6月4日

【CVPR2021】现实世界域泛化的自适应方法

【CVPR2021】现实世界域泛化的自适应方法

专知会员服务

58+阅读 · 2021年3月31日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

【AAAI2023】终身嵌入学习和迁移的知识图谱增长

专知

6+阅读 · 2022年12月1日

EMNLP 2022 | 预训练语言模型的时空效率优化

EMNLP 2022 | 预训练语言模型的时空效率优化

PaperWeekly

1+阅读 · 2022年11月20日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知

3+阅读 · 2022年8月17日

ICML2020 图神经网络的预训练

ICML2020 图神经网络的预训练

图与推荐

12+阅读 · 2020年4月4日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

专知

32+阅读 · 2019年8月17日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

外部介入式重大工程建设组织学习机制及其对关联组织能力的影响研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

面向动态语言程序的缺陷理解研究

国家自然科学基金

0+阅读 · 2014年12月31日

非重复系统的鲁棒迭代学习控制及其在多智能体系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多任务学习的理论分析与应用

国家自然科学基金

6+阅读 · 2013年12月31日

基于模型检测的非确定性概率模型学习

国家自然科学基金

2+阅读 · 2013年12月31日

分布式集成协作控制在大规模多智能体系统中的设计

国家自然科学基金

8+阅读 · 2009年12月31日

基于智能多模型粒子滤波的运动物体状态估计研究

国家自然科学基金

0+阅读 · 2008年12月31日

复杂系统故障早期多变量序列的混沌模式分析和预测

国家自然科学基金

0+阅读 · 2008年12月31日

相关论文

Intent-calibrated Self-training for Answer Selection in Open-domain Dialogues

Arxiv

0+阅读 · 2023年7月13日

TencentPretrain: A Scalable and Flexible Toolkit for Pre-training Models of Different Modalities

Arxiv

0+阅读 · 2023年7月11日

Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

Arxiv

22+阅读 · 2023年5月3日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

475+阅读 · 2023年3月31日

Survey: Transformer based Video-Language Pre-training

Arxiv

20+阅读 · 2021年9月21日

Data Augmentation using Pre-trained Transformer Models

Arxiv

17+阅读 · 2020年3月4日

TinyBERT: Distilling BERT for Natural Language Understanding

TinyBERT: Distilling BERT for Natural Language Understanding

Arxiv

11+阅读 · 2019年9月23日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

微信扫码咨询专知VIP会员