每日论文 | 谷歌新模型BERT刷新多项NLP任务成绩；三大概率模型详解；另辟蹊径解决多任务学习 - 专知

会员服务 ·

0

每日论文 | 谷歌新模型BERT刷新多项NLP任务成绩；三大概率模型详解；另辟蹊径解决多任务学习

2018 年 10 月 12 日 论智

1

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

昨日，谷歌发表论文称，他们提出了一种新的语言表示模型BERT（Bidirectional Encoder Representations from Transformers）。和最近的语言表示模型不同，BERT通过考虑所有层的左右两部分语境，对深度双向表示进行预训练。BERT的结构非常简单，但实用性很强，它在11种NLP任务中都获得了最优成绩，比如在GLUE上的得分达到80.4%（提高了7.6%），在MultiNLI上的精确度达到了86.7%（提高了5.6%），在SQuAD v1.1问答测试F1中达到了93.2分，比人类最高水平还高2.0%。

地址：https://arxiv.org/abs/1810.04805

2

A Tale of Three Probabilistic Families: Discriminative, Descriptive and Generative Models

格雷南德的模式理论（patter theory）是一个数学框架，其模式由代数结构随机变量的概率模型表示。在本文中，我们回顾了概率模型的“三大家族”，即判别模型、描述模型和生成模型。我们将在通用框架内浏览这些模型，并探索它们之间的联系。

地址：https://arxiv.org/abs/1810.04261

3

Multi-Task Learning as Multi-Objective Optimization

在多任务学习中，各任务通常是联合解决的，它们之间通常有相同的归纳偏差。多任务学习的本质是多目标问题，因为不同的人物之间可能会冲突，所以需要进行权衡。常见的折中方案是优化代理目标，最小化每个人物损失的加权线性组合。但是这种方法只有在简单任务中才能有效。在本文中，我们将多任务学习看作多目标优化，其总体目标就是找到帕累托最优解。最终证明，我们的方法在最近的多任务学习问题上的表现达到了最优。

地址：https://arxiv.org/abs/1810.04650

登录查看更多

6

相关内容

概率模型

概率模型(生成模型)通过函数 F 来描述 X 和 Y 的联合概率或者条件概率分布。

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

58+阅读 · 2020年6月29日

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

专知会员服务

20+阅读 · 2020年5月3日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

专知会员服务

14+阅读 · 2020年3月8日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

带你读论文丨 8 篇论文梳理 BERT 相关模型

带你读论文丨 8 篇论文梳理 BERT 相关模型

新智元

9+阅读 · 2019年9月9日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

可应用于实际的14个NLP突破性研究成果（一）

可应用于实际的14个NLP突破性研究成果（一）

云栖社区

7+阅读 · 2019年2月18日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

详解谷歌最强NLP模型BERT（理论+实战）

详解谷歌最强NLP模型BERT（理论+实战）

AI100

11+阅读 · 2019年1月18日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

谷歌BERT模型深度解析

谷歌BERT模型深度解析

AINLP

42+阅读 · 2018年11月15日

详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈

详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈

人工智能头条

10+阅读 · 2018年10月25日

每日论文 | 机器阅读理解的双向问答网络；自然语言模型的大型边际标准；给神经网络打分，哪种更像人类大脑？

每日论文 | 机器阅读理解的双向问答网络；自然语言模型的大型边际标准；给神经网络打分，哪种更像人类大脑？

论智

9+阅读 · 2018年9月8日

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Arxiv

7+阅读 · 2019年2月3日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

VIP会员

相关主题

多任务学习

相关VIP内容

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

【NeurIPS2020提交论文】通用表示Transformer层的小样本图像分类

专知会员服务

58+阅读 · 2020年6月29日

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

专知会员服务

20+阅读 · 2020年5月3日

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

Google BERT作者Jacob斯坦福亲授《上下文词向量与预训练语言模型: BERT到T5》43页ppt

专知会员服务

91+阅读 · 2020年4月6日

【ICLR2020-谷歌】用“复合散度”量化模型合成泛化能力

专知会员服务

20+阅读 · 2020年3月29日

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

【Google-斯坦福-ICLR2020】ELECTRA:预训练文本编码器作为鉴别器而不是生成器

专知会员服务

14+阅读 · 2020年3月8日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日

BERT进展2019四篇必读论文

BERT进展2019四篇必读论文

专知会员服务

69+阅读 · 2020年1月2日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】通过真实世界实践赋能机器人自主性

军用无人机集群技术尚未成熟——但潜力可期

人工智能安全治理白皮书（2025）

AgentOps综述：分类、挑战与未来方向

相关资讯

带你读论文丨 8 篇论文梳理 BERT 相关模型

带你读论文丨 8 篇论文梳理 BERT 相关模型

新智元

9+阅读 · 2019年9月9日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

中文版-BERT-预训练的深度双向Transformer语言模型-详细介绍

深度学习与NLP

30+阅读 · 2019年3月30日

可应用于实际的14个NLP突破性研究成果（一）

可应用于实际的14个NLP突破性研究成果（一）

云栖社区

7+阅读 · 2019年2月18日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

详解谷歌最强NLP模型BERT（理论+实战）

详解谷歌最强NLP模型BERT（理论+实战）

AI100

11+阅读 · 2019年1月18日

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

继BERT之后，这个新模型再一次在11项NLP基准上打破纪录

机器之心

8+阅读 · 2018年12月23日

谷歌BERT模型深度解析

谷歌BERT模型深度解析

AINLP

42+阅读 · 2018年11月15日

详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈

详细解读谷歌新模型 BERT 为什么嗨翻 AI 圈

人工智能头条

10+阅读 · 2018年10月25日

每日论文 | 机器阅读理解的双向问答网络；自然语言模型的大型边际标准；给神经网络打分，哪种更像人类大脑？

每日论文 | 机器阅读理解的双向问答网络；自然语言模型的大型边际标准；给神经网络打分，哪种更像人类大脑？

论智

9+阅读 · 2018年9月8日

相关论文

Pre-training Text Representations as Meta Learning

Arxiv

13+阅读 · 2020年4月12日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

DocBERT: BERT for Document Classification

Arxiv

6+阅读 · 2019年8月22日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

Arxiv

7+阅读 · 2019年2月3日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

Deep contextualized word representations

Arxiv

10+阅读 · 2018年3月22日

大家都在搜

大型语言模型

CMU博士论文

国防科技创新

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员