[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中 - 专知VIP

会员服务 ·

20

ACL 2023 · 预训练语言模型 · 领域知识 ·

2023 年 6 月 11 日

[ACL2023]领域适配器混合：将领域知识解耦并注入到预训练语言模型的记忆中

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

预训练语言模型（PLMs）在理解通用领域的文本方面表现出了卓越的能力，然而在特定领域的理解方面却面临挑战。尽管在大型特定领域语料库上进行连续预训练是有效的，但在该领域上调整所有参数的成本非常高。在本文中，我们研究了我们是否能够通过仅调整少数参数来有效且高效地适应 PLMs。具体而言，我们将 Transformer 架构的前馈网络（FFNs）解耦为两部分：原始预训练的 FFNs 用于保留旧领域知识，而我们创新的领域特定适配器则并行注入领域特定知识。然后，我们采用了一种混合适配器门来动态地融合来自不同领域适配器的知识。我们提出的领域适配器混合（MixDA）采用了两阶段适配器调优策略，利用无标签数据和有标签数据来帮助领域适应：i）在无标签数据上的领域特定适配器；接着是 ii）在有标签数据上的任务特定适配器。MixDA 可以无缝地插入预训练-微调范例，我们的实验表明，MixDA 在领域内任务（GLUE），领域外任务（ChemProt，RCT，IMDB，Amazon）以及知识密集型任务（KILT）上都实现了卓越的性能。进一步的分析证明了我们方法的可靠性，可扩展性和效率。

https://www.zhuanzhi.ai/paper/20a33c2a350833619d3fb41eef0ce624

成为VIP会员查看完整内容

33

相关内容

ACL 2023

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

专知会员服务

89+阅读 · 2023年4月3日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知会员服务

62+阅读 · 2022年11月18日

【港科大博士论文】高效迁移学习的低资源自然语言理解

【港科大博士论文】高效迁移学习的低资源自然语言理解

专知会员服务

34+阅读 · 2022年8月24日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知会员服务

47+阅读 · 2022年8月17日

基于预训练语言模型的文本生成

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软研究院AI头条

1+阅读 · 2022年11月17日

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

COLING 2022 | CPSUM：低资源场景下的半监督文本摘要抽取式模型

COLING 2022 | CPSUM：低资源场景下的半监督文本摘要抽取式模型

PaperWeekly

0+阅读 · 2022年10月12日

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

专知

1+阅读 · 2022年10月7日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

支持设计重用的产品三维模型多关联启发适配关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主动增量式学习的故障诊断知识挖掘方法

国家自然科学基金

2+阅读 · 2013年12月31日

主题模型建模框架下的高分辨率遥感影像半监督分类研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向多核处理器的任务模块生成与调度映射方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向统计机器翻译的同步短语树结构归约机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于深层学习的汉语句法语义分析研究

国家自然科学基金

3+阅读 · 2012年12月31日

次声激活小胶质细胞抑制成年大鼠海马神经发生的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于双曲树的分支分类信息的可视分析模型与方法

国家自然科学基金

0+阅读 · 2011年12月31日

Sequential and Shared-Memory Parallel Algorithms for Partitioned Local Depths

Arxiv

0+阅读 · 2023年7月31日

Does Transliteration Help Multilingual Language Modeling?

Arxiv

0+阅读 · 2023年7月30日

Conformal prediction for frequency-severity modeling

Arxiv

0+阅读 · 2023年7月27日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling

Arxiv

17+阅读 · 2021年6月9日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

Arxiv

11+阅读 · 2018年4月12日

VIP会员

相关主题

预训练语言模型

相关VIP内容

【ICML2023】终身语言预训练与分布式专业化专家

【ICML2023】终身语言预训练与分布式专业化专家

专知会员服务

27+阅读 · 2023年5月26日

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

知识图谱如何融合大模型？【斯坦福博士论文】利用结构化数据实现鲁棒和自适应的自然语言表示，141页pdf

专知会员服务

89+阅读 · 2023年4月3日

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

PubMed GPT ：用于生物医学文本的特定领域大型语言模型

专知会员服务

38+阅读 · 2022年12月19日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知会员服务

62+阅读 · 2022年11月18日

【港科大博士论文】高效迁移学习的低资源自然语言理解

【港科大博士论文】高效迁移学习的低资源自然语言理解

专知会员服务

34+阅读 · 2022年8月24日

【伯克利博士论文】学习跨领域的可迁移表示

【伯克利博士论文】学习跨领域的可迁移表示

专知会员服务

47+阅读 · 2022年8月17日

基于预训练语言模型的文本生成

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

【浙大-WWW2022】OntoPrompt & KnowPrompt：知识提示的预训练微调

专知会员服务

48+阅读 · 2022年1月26日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【KDD2021】强化迭代知识蒸馏的跨语言命名实体识别

专知会员服务

25+阅读 · 2021年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软T-ULRv6：引领基础模型向多语言“大一统”迈进

微软研究院AI头条

1+阅读 · 2022年11月17日

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型

PaperWeekly

1+阅读 · 2022年10月14日

COLING 2022 | CPSUM：低资源场景下的半监督文本摘要抽取式模型

COLING 2022 | CPSUM：低资源场景下的半监督文本摘要抽取式模型

PaperWeekly

0+阅读 · 2022年10月12日

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

NeurIPS2022｜基于解耦因果子结构学习的去偏差图神经网络

专知

1+阅读 · 2022年10月7日

NAACL 2022 | 基于Prompt的文本生成迁移学习

NAACL 2022 | 基于Prompt的文本生成迁移学习

PaperWeekly

1+阅读 · 2022年8月31日

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

【港科大博士论文】高效迁移学习的低资源自然语言理解，164页pdf

专知

0+阅读 · 2022年8月24日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

18+阅读 · 2020年8月31日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

相关基金

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

无监督分词及词性归纳联合方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

支持设计重用的产品三维模型多关联启发适配关键技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于主动增量式学习的故障诊断知识挖掘方法

国家自然科学基金

2+阅读 · 2013年12月31日

主题模型建模框架下的高分辨率遥感影像半监督分类研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向多核处理器的任务模块生成与调度映射方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

面向统计机器翻译的同步短语树结构归约机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于深层学习的汉语句法语义分析研究

国家自然科学基金

3+阅读 · 2012年12月31日

次声激活小胶质细胞抑制成年大鼠海马神经发生的研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于双曲树的分支分类信息的可视分析模型与方法

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Sequential and Shared-Memory Parallel Algorithms for Partitioned Local Depths

Arxiv

0+阅读 · 2023年7月31日

Does Transliteration Help Multilingual Language Modeling?

Arxiv

0+阅读 · 2023年7月30日

Conformal prediction for frequency-severity modeling

Arxiv

0+阅读 · 2023年7月27日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Cross-Node Federated Graph Neural Network for Spatio-Temporal Data Modeling

Arxiv

17+阅读 · 2021年6月9日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

EventKG: A Multilingual Event-Centric Temporal Knowledge Graph

Arxiv

11+阅读 · 2018年4月12日

微信扫码咨询专知VIP会员