预训练语言模型(PLMs)在理解通用领域的文本方面表现出了卓越的能力,然而在特定领域的理解方面却面临挑战。尽管在大型特定领域语料库上进行连续预训练是有效的,但在该领域上调整所有参数的成本非常高。在本文中,我们研究了我们是否能够通过仅调整少数参数来有效且高效地适应 PLMs。具体而言,我们将 Transformer 架构的前馈网络(FFNs)解耦为两部分:原始预训练的 FFNs 用于保留旧领域知识,而我们创新的领域特定适配器则并行注入领域特定知识。然后,我们采用了一种混合适配器门来动态地融合来自不同领域适配器的知识。我们提出的领域适配器混合(MixDA)采用了两阶段适配器调优策略,利用无标签数据和有标签数据来帮助领域适应:i)在无标签数据上的领域特定适配器;接着是 ii)在有标签数据上的任务特定适配器。MixDA 可以无缝地插入预训练-微调范例,我们的实验表明,MixDA 在领域内任务(GLUE),领域外任务(ChemProt,RCT,IMDB,Amazon)以及知识密集型任务(KILT)上都实现了卓越的性能。进一步的分析证明了我们方法的可靠性,可扩展性和效率。

https://www.zhuanzhi.ai/paper/20a33c2a350833619d3fb41eef0ce624

成为VIP会员查看完整内容
29

相关内容

【ICML2023】终身语言预训练与分布式专业化专家
专知会员服务
25+阅读 · 2023年5月26日
PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
37+阅读 · 2022年12月19日
「知识增强预训练语言模型」最新研究综述
专知会员服务
58+阅读 · 2022年11月18日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【伯克利博士论文】学习跨领域的可迁移表示
专知会员服务
45+阅读 · 2022年8月17日
基于预训练语言模型的文本生成
专知会员服务
27+阅读 · 2022年1月28日
专知会员服务
24+阅读 · 2021年6月17日
「知识增强预训练语言模型」最新研究综述
专知
17+阅读 · 2022年11月18日
微软T-ULRv6:引领基础模型向多语言“大一统”迈进
微软研究院AI头条
1+阅读 · 2022年11月17日
NAACL 2022 | 基于Prompt的文本生成迁移学习
PaperWeekly
1+阅读 · 2022年8月31日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年7月27日
Arxiv
131+阅读 · 2023年4月20日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
15+阅读 · 2019年9月11日
Arxiv
21+阅读 · 2019年3月25日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
相关论文
微信扫码咨询专知VIP会员