【NeurIPS 2020】融入BERT到并行序列模型 - 专知

会员服务 ·

0

【NeurIPS 2020】融入BERT到并行序列模型

2020 年 10 月 16 日 专知

Incorporating BERT into Parallel Sequence Decoding with Adapters

虽然BERT等大规模的预训练语言模型在各种自然语言理解任务上取得了巨大的成功，但如何高效、有效地将它们合并到序列到序列模型和相应的文本生成任务中仍然是一个不容忽视的问题。为了解决这个问题，我们提出采用两种不同的BERT模型分别作为编码器和解码器，并通过引入简单的和轻量级的适配器模块对它们进行微调，这些适配器模块插入到BERT层之间，并针对特定的任务数据集进行调优。这样，我们得到了一个灵活高效的模型，它能够联合利用源端和目标端BERT模型中包含的信息，同时绕过了灾难性遗忘问题。框架中的每个组件都可以看作是一个插件单元，使得框架灵活且任务不相关。该框架基于并行序列译码算法掩模预测，考虑了BERT算法的双向和条件独立性，易于适应传统的自回归译码。我们在神经机器翻译任务上进行了广泛的实验，在实验中，所提出的方法始终优于自回归基线，同时将推理延迟减少了一半，并且在IWSLT14德语-英语/WMT14德语-英语翻译中达到36.49/33.57的BLEU分数。当采用自回归译码时，该方法在WMT14英-德/英-法翻译中的BLEU得分达到30.60/43.56，与最先进的基线模型相当。

https://arxiv.org/abs/2010.06138

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“BERTPS” 可以获取《【NeurIPS 2020】融入BERT到并行序列模型》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

2

相关内容

并行序列模型

并行序列模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

专知会员服务

195+阅读 · 2020年5月31日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

BERT技术体系综述论文：40项分析探究BERT如何work

BERT技术体系综述论文：40项分析探究BERT如何work

专知

50+阅读 · 2020年3月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【资源】最新BERT相关论文清单汇总

【资源】最新BERT相关论文清单汇总

专知

33+阅读 · 2019年10月2日

【论文笔记】基于BERT的知识图谱补全

【论文笔记】基于BERT的知识图谱补全

专知

116+阅读 · 2019年9月15日

超越BERT、GPT，微软提出通用预训练模型MASS

超越BERT、GPT，微软提出通用预训练模型MASS

机器之心

4+阅读 · 2019年5月10日

关系图注意力网络-Relational Graph Attention Networks

关系图注意力网络-Relational Graph Attention Networks

专知

141+阅读 · 2019年4月22日

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

专知

49+阅读 · 2019年3月7日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

Do We Really Need That Many Parameters In Transformer For Extractive Summarization? Discourse Can Help !

Arxiv

0+阅读 · 2020年12月3日

Arxiv

0+阅读 · 2020年11月26日

Multi-Stage Document Ranking with BERT

Arxiv

5+阅读 · 2019年10月31日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Incorporating Domain Knowledge into Medical NLI using Knowledge Graphs

Incorporating Domain Knowledge into Medical NLI using Knowledge Graphs

Arxiv

4+阅读 · 2019年8月31日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Arxiv

7+阅读 · 2019年2月3日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员

相关主题

并行序列模型

相关VIP内容

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知会员服务

41+阅读 · 2020年8月31日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

专知会员服务

195+阅读 · 2020年5月31日

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

【微软-ACL2020】TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

专知会员服务

36+阅读 · 2020年4月14日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

【上海交大-字节跳动】在神经机器翻译中充分利用BERT，Making the Most of BERT in NMT

专知会员服务

24+阅读 · 2020年3月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

BERT技术体系综述论文：40项分析探究BERT如何work

BERT技术体系综述论文：40项分析探究BERT如何work

专知

50+阅读 · 2020年3月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【资源】最新BERT相关论文清单汇总

【资源】最新BERT相关论文清单汇总

专知

33+阅读 · 2019年10月2日

【论文笔记】基于BERT的知识图谱补全

【论文笔记】基于BERT的知识图谱补全

专知

116+阅读 · 2019年9月15日

超越BERT、GPT，微软提出通用预训练模型MASS

超越BERT、GPT，微软提出通用预训练模型MASS

机器之心

4+阅读 · 2019年5月10日

关系图注意力网络-Relational Graph Attention Networks

关系图注意力网络-Relational Graph Attention Networks

专知

141+阅读 · 2019年4月22日

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

专知

49+阅读 · 2019年3月7日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

相关论文

Do We Really Need That Many Parameters In Transformer For Extractive Summarization? Discourse Can Help !

Arxiv

0+阅读 · 2020年12月3日

Arxiv

0+阅读 · 2020年11月26日

Multi-Stage Document Ranking with BERT

Arxiv

5+阅读 · 2019年10月31日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

15+阅读 · 2019年9月11日

Incorporating Domain Knowledge into Medical NLI using Knowledge Graphs

Incorporating Domain Knowledge into Medical NLI using Knowledge Graphs

Arxiv

4+阅读 · 2019年8月31日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

Passage Re-ranking with BERT

Arxiv

4+阅读 · 2019年2月18日

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Arxiv

7+阅读 · 2019年2月3日

Conditional BERT Contextual Augmentation

Conditional BERT Contextual Augmentation

Arxiv

8+阅读 · 2018年12月17日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

大家都在搜

国防科技创新

大型语言模型

CMU博士论文

软件无线电

无人机航拍交通事故现场勘查处置系统——行业第一的警用事故处理软件

微信扫码咨询专知VIP会员