10大任务超越BERT，微软提出多任务深度神经网络MT-DNN - 专知

会员服务 ·

0

10大任务超越BERT，微软提出多任务深度神经网络MT-DNN

2019 年 3 月 22 日 新智元

新智元AI技术峰会倒计时5天

新智元将于3月27日在北京泰富酒店举办“2019新智元AI技术峰会——智能云•芯世界”，聚焦智能云和AI芯片发展，重塑未来AI世界格局。

同时，新智元将现场权威发布若干AI白皮书，聚焦产业链的创新活跃，助力中国在世界级的AI竞争中实现超越。

参会二维码：

新智元报道

来源：microsoft

作者：Jianfeng Gao 编辑：肖琴

【新智元导读】微软新研究提出一个新的多任务深度神经网络模型——MT-DNN。MT-DNN结合了BERT的优点，并在10大自然语言理解任务上超越了BERT，在多个流行的基准测试中创造了新的最先进的结果。

语言嵌入是将自然语言符号文本(如单词、短语和句子)映射到语义向量表示的过程。这是自然语言理解(NLU)深度学习方法的基础。学习对多个NLU任务通用的语言嵌入是非常必要的。

学习语言嵌入有两种流行方法，分别是语言模型预训练和多任务学习(MTL)。前者通过利用大量未标记的数据学习通用语言嵌入，但MTL可以有效地利用来自许多相关任务的有监督数据，并通过减轻对特定任务的过度拟合，从正则化效果中获益，从而使学习的嵌入在任务之间具有通用性。

最近，微软的研究人员发布了一个用于学习通用语言嵌入的多任务深度神经网络模型——MT-DNN。MT-DNN结合了MTL和BERT的语言模型预训练方法的优点，并在10个NLU任务上超越了BERT，在多个流行的NLU基准测试中创造了新的最先进的结果，包括通用语言理解评估(GLUE)、斯坦福自然语言推理(SNLI)和SciTail。

MT-DNN的架构

MT-DNN扩展了微软在2015年提出的多任务DNN模型(Multi-Task DNN)，引入了谷歌AI开发的预训练双向transformer语言模型BERT。

MT-DNN架构

MT-DNN模型的架构如上图所示。低层在所有任务之间共享，而顶层是特定于任务的。输入X可以是一个句子或一对句子，其中的每个单词都先被表示为一个嵌入向量序列，表示为l_1。

然后，基于transformer的编码器捕获每个单词的上下文信息，并在l_2中生成共享的上下文嵌入向量。

最后，对于每个任务，额外的 task-speciﬁc 的层生成特定于任务的表示，然后是分类、相似度评分或相关性排序所需的操作。MT-DNN使用BERT来初始化它的共享层，然后通过MTL改进它们。

领域自适应结果

评估语言嵌入的通用性的一种方法是测量嵌入适应新任务的速度，或者需要多少特定于任务的标签才能在新任务上获得不错的结果。越通用的嵌入，它需要的特定于任务的标签就越少。

MT-DNN论文的作者将MT-DNN与BERT在领域自适应(domain adaption)方面的表现进行了比较。

在域适应方面，两种模型都通过逐步增加域内数据(in-domain data)的大小来适应新的任务。

SNLI和SciTail任务的结果如下表和图所示。可以看到，在只有0.1%的域内数据(SNLI中为549个样本，SciTail中为23个样本)的条件下，MT-DNN的准确率超过80%，而BERT的准确率在50%左右，这说明MT-DNN学习的语言嵌入比BERT的更加通用。

与BERT相比，MT-DNN在SNLI和SciTail数据集上的精度更高。

在GLUE、SNLI和SciTail 3个benchmarks上的结果

在GLUE测试集的结果，MT-DNN在10个任务上的结果均超越了BERT

模型开源

微软已经在GitHub开源MT-DNN包，其中包含了预训练的模型、源代码，并描述了如何重现MT-DNN论文中报告的结果，以及如何通过domain adaptation使预训练的MT-DNN模型适应任何新任务。

论文：

https://arxiv.org/abs/1901.11504

GitHub：

https://github.com/namisan/mt-dnn

新智元春季招聘开启，一起弄潮AI之巅！

岗位详情请戳：

【春招英雄贴】新智元呼召智士主笔，2019勇闯AI之巅！

【2019新智元 AI 技术峰会倒计时8天】

2019年的3月27日，新智元再汇AI之力，在北京泰富酒店举办AI开年盛典——2019新智元AI技术峰会。峰会以“智能云•芯世界“为主题，聚焦智能云和AI芯片的发展，重塑未来AI世界格局。

同时，新智元将在峰会现场权威发布若干AI白皮书，聚焦产业链的创新活跃，评述华人AI学者的影响力，助力中国在世界级的AI竞争中实现超越。

购票二维码

活动行购票链接：http://hdxu.cn/9Lb5U

点击文末“阅读原文”，马上参会

登录查看更多

1

相关内容

MT-DNN

最新《深度多任务学习》综述论文，22页pdf109篇文献概述MTL最新进展

最新《深度多任务学习》综述论文，22页pdf109篇文献概述MTL最新进展

专知会员服务

119+阅读 · 2020年6月13日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

70+阅读 · 2020年1月2日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps

【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps

专知会员服务

51+阅读 · 2019年11月26日

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

AI100

5+阅读 · 2019年5月10日

超越BERT、GPT，微软提出通用预训练模型MASS

超越BERT、GPT，微软提出通用预训练模型MASS

机器之心

4+阅读 · 2019年5月10日

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

新智元

6+阅读 · 2019年5月10日

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

微软研究院AI头条

5+阅读 · 2019年5月9日

斯坦福新模型刷新纪录：自然语言理解 GLUE 排行榜最高分！

斯坦福新模型刷新纪录：自然语言理解 GLUE 排行榜最高分！

新智元

4+阅读 · 2019年3月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

机器之心

5+阅读 · 2018年6月7日

Visualizing and Measuring the Geometry of BERT

Visualizing and Measuring the Geometry of BERT

Arxiv

7+阅读 · 2019年10月28日

Deep Universal Graph Embedding Neural Network

Arxiv

6+阅读 · 2019年9月25日

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年7月10日

What Does BERT Look At? An Analysis of BERT's Attention

Arxiv

4+阅读 · 2019年6月11日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

VIP会员

相关主题

深度神经网络

相关VIP内容

最新《深度多任务学习》综述论文，22页pdf109篇文献概述MTL最新进展

最新《深度多任务学习》综述论文，22页pdf109篇文献概述MTL最新进展

专知会员服务

119+阅读 · 2020年6月13日

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

【微软】大型神经语言模型的对抗性训练，Adversarial Training for Large Neural Language Models

专知会员服务

51+阅读 · 2020年5月3日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

70+阅读 · 2020年1月2日

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

[华盛顿大学】微调预训练的语言模型:权重初始化、数据顺序和早期停止

专知会员服务

23+阅读 · 2019年12月15日

【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps

【文章|BERT三步使用NLP迁移学习】NLP Transfer Learning In 3 Steps

专知会员服务

51+阅读 · 2019年11月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI科技评论

18+阅读 · 2019年6月25日

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

ICML 2019：序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS | 技术头条

AI100

5+阅读 · 2019年5月10日

超越BERT、GPT，微软提出通用预训练模型MASS

超越BERT、GPT，微软提出通用预训练模型MASS

机器之心

4+阅读 · 2019年5月10日

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

【ICML 2019】微软最新通用预训练模型MASS，超越BERT、GPT！

新智元

6+阅读 · 2019年5月10日

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT！微软提出通用预训练模型MASS

微软研究院AI头条

5+阅读 · 2019年5月9日

斯坦福新模型刷新纪录：自然语言理解 GLUE 排行榜最高分！

斯坦福新模型刷新纪录：自然语言理解 GLUE 排行榜最高分！

新智元

4+阅读 · 2019年3月23日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

GLUE排行榜上全面超越BERT的模型近日公布了！

GLUE排行榜上全面超越BERT的模型近日公布了！

机器之心

9+阅读 · 2019年2月13日

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

NAACL 2018 | 最佳论文：艾伦人工智能研究所提出新型深度语境化词表征

机器之心

5+阅读 · 2018年6月7日

相关论文

Visualizing and Measuring the Geometry of BERT

Visualizing and Measuring the Geometry of BERT

Arxiv

7+阅读 · 2019年10月28日

Deep Universal Graph Embedding Neural Network

Arxiv

6+阅读 · 2019年9月25日

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

BAM! Born-Again Multi-Task Networks for Natural Language Understanding

Arxiv

3+阅读 · 2019年7月10日

What Does BERT Look At? An Analysis of BERT's Attention

Arxiv

4+阅读 · 2019年6月11日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

BERTScore: Evaluating Text Generation with BERT

Arxiv

5+阅读 · 2019年4月21日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员