动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT - 专知

会员服务 ·

0

动态 | 百度发布NLP模型ERNIE，基于知识增强，在多个中文NLP任务中表现超越BERT

2019 年 3 月 17 日 AI科技评论

AI 科技评论消息，Google 近期提出的 BERT 模型，通过预测屏蔽的词，利用 Transformer 的多层 self-attention 双向建模能力，取得了很好的效果。但是，BERT 模型的建模对象主要聚焦在原始语言信号上，较少利用语义知识单元建模。这个问题在中文方面尤为明显，例如，BERT 在处理中文语言时，通过预测汉字进行建模，模型很难学出更大语义单元的完整语义表示。例如，对于乒 [mask] 球，清明上 [mask] 图，[mask] 颜六色这些词，BERT 模型通过字的搭配，很容易推测出掩码的字信息，但没有显式地对语义概念单元 (如乒乓球、清明上河图) 以及其对应的语义关系进行建模。

设想如果能够让模型学习到海量文本中蕴含的潜在知识，势必会进一步提升各个 NLP 任务效果。基于此，百度提出了基于知识增强的 ERNIE 模型。

ERNIE 通过建模海量数据中的词、实体及实体关系，学习真实世界的语义知识。相较于 BERT 学习局部语言共现的语义表示，ERNIE 直接对语义知识进行建模，增强了模型语义表示能力。

例如以下例子：

Learned by BERT ：哈 [mask] 滨是 [mask] 龙江的省会，[mask] 际冰 [mask] 文化名城。

Learned by ERNIE：[mask] [mask] [mask] 是黑龙江的省会，国际 [mask] [mask] 文化名城。

在 BERT 模型中，通过『哈』与『滨』的局部共现，即可判断出『尔』字，模型没有学习与『哈尔滨』相关的知识。而 ERNIE 通过学习词与实体的表达，使模型能够建模出『哈尔滨』与『黑龙江』的关系，学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

训练数据方面，除百科类、资讯类中文语料外，ERNIE 还引入了论坛对话类数据，利用 DLM（Dialogue Language Model）建模 Query-Response 对话结构，将对话 Pair 对作为输入，引入 Dialogue Embedding 标识对话的角色，利用 Dialogue Response Loss 学习对话的隐式关系，进一步提升模型的语义表示能力。

通过在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 5 个公开的中文数据集合上进行效果验证，ERNIE 模型相较 BERT 取得了更好的效果。

1. 自然语言推断任务 XNLI

XNLI 由 Facebook 和纽约大学的研究者联合构建，旨在评测模型多语言的句子理解能力。目标是判断两个句子的关系（矛盾、中立、蕴含）。

链接：https://github.com/facebookresearch/XNLI

2. 语义相似度任务 LCQMC

LCQMC 是哈尔滨工业大学在自然语言处理国际顶会 COLING2018 构建的问题语义匹配数据集，其目标是判断两个问题的语义是否相同。

链接: http://aclweb.org/anthology/C18-1166

3. 情感分析任务 ChnSentiCorp

ChnSentiCorp 是中文情感分析数据集，其目标是判断一段话的情感态度。

4. 命名实体识别任务 MSRA-NER

MSRA-NER 数据集由微软亚研院发布，其目标是命名实体识别，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名等。

5. 检索式问答匹配任务 NLPCC-DBQA

NLPCC-DBQA 是由国际自然语言处理和中文计算会议 NLPCC 于 2016 年举办的评测任务，其目标是选择能够回答问题的答案。

地址: http://tcci.ccf.org.cn/conference/2016/dldoc/evagline2.pdf

预训练模型下载地址：

https://ernie.bj.bcebos.com/ERNIE.tgz

任务数据下载地址：

https://ernie.bj.bcebos.com/task_data.tgz

Github 地址：

https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

点击阅读原文，加入 AI 研习社组织的技术交流小组进行更多讨论

登录查看更多

4

相关内容

知识增强

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

专知会员服务

195+阅读 · 2020年5月31日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

专知会员服务

20+阅读 · 2020年5月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知会员服务

25+阅读 · 2020年4月20日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

专知会员服务

85+阅读 · 2020年3月18日

AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型

专知会员服务

53+阅读 · 2020年2月26日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

专知会员服务

100+阅读 · 2019年11月15日

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

漫画解读ERNIE：能和BERT一较高下的知识增强语义表示模型

漫画解读ERNIE：能和BERT一较高下的知识增强语义表示模型

PaperWeekly

8+阅读 · 2019年7月2日

我跑了ERNIE和BERT两个模型，结果出乎意料......

我跑了ERNIE和BERT两个模型，结果出乎意料......

PaperWeekly

21+阅读 · 2019年6月24日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

官方 | 从机器翻译到阅读理解，一文盘点PaddlePaddle九大NLP模型

官方 | 从机器翻译到阅读理解，一文盘点PaddlePaddle九大NLP模型

机器学习算法与Python学习

9+阅读 · 2019年4月13日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Binarized Knowledge Graph Embeddings

Arxiv

4+阅读 · 2019年2月8日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月28日

SpectralLeader: Online Spectral Learning for Single Topic Models

Arxiv

4+阅读 · 2018年4月26日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering

Arxiv

5+阅读 · 2018年4月9日

VIP会员

相关主题

相关VIP内容

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

KG-BERT：基于BERT的知识图谱补全，KG-BERT: BERT for Knowledge Graph Completion

专知会员服务

195+阅读 · 2020年5月31日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

【斯坦福】探究预训练语言模型中的可迁移性，Investigating Transferability in PLM

专知会员服务

20+阅读 · 2020年5月3日

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

【复旦大学-SP2020】NLP语言模型隐私泄漏风险

专知会员服务

25+阅读 · 2020年4月20日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

【牛津DeepMind】从Word2Vec到BERT:上下文嵌入(Contextual Embeddings)综述论文

专知会员服务

85+阅读 · 2020年3月18日

AAAI 2020 | 滴滴自主提出基于注意力机制的异构图神经网络模型

专知会员服务

53+阅读 · 2020年2月26日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

【MLA 2019】自然语言处理中的表示学习进展：从Transfomer到BERT，复旦大学邱锡鹏

专知会员服务

100+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体强化学习：全景综述

《城市滨海地区：理解复杂多变环境下的指挥控制框架》50页报告

【伯克利博士论文】从推理服务到训练：面向大规模 LLM 智能体的高效系统

美空军“顶点2025”实验：推进AI在C2、动态目标锁定与联盟集成中的应用

相关资讯

一文读懂最强中文NLP预训练模型ERNIE

一文读懂最强中文NLP预训练模型ERNIE

AINLP

25+阅读 · 2019年10月22日

漫画解读ERNIE：能和BERT一较高下的知识增强语义表示模型

漫画解读ERNIE：能和BERT一较高下的知识增强语义表示模型

PaperWeekly

8+阅读 · 2019年7月2日

我跑了ERNIE和BERT两个模型，结果出乎意料......

我跑了ERNIE和BERT两个模型，结果出乎意料......

PaperWeekly

21+阅读 · 2019年6月24日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT（附论文解读）

数据派THU

14+阅读 · 2019年6月15日

站在BERT肩膀上的NLP新秀们（PART I）

站在BERT肩膀上的NLP新秀们（PART I）

AINLP

30+阅读 · 2019年6月4日

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

ACL 2019 | 基于知识增强的语言表示模型，多项NLP任务表现超越BERT

PaperWeekly

8+阅读 · 2019年6月3日

官方 | 从机器翻译到阅读理解，一文盘点PaddlePaddle九大NLP模型

官方 | 从机器翻译到阅读理解，一文盘点PaddlePaddle九大NLP模型

机器学习算法与Python学习

9+阅读 · 2019年4月13日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE（附项目地址）

数据派THU

24+阅读 · 2019年3月23日

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

中文任务全面超越BERT：百度正式发布NLP预训练模型ERNIE

机器之心

11+阅读 · 2019年3月16日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

相关论文

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Attention Is (not) All You Need for Commonsense Reasoning

Arxiv

7+阅读 · 2019年5月31日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Binarized Knowledge Graph Embeddings

Arxiv

4+阅读 · 2019年2月8日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月28日

SpectralLeader: Online Spectral Learning for Single Topic Models

Arxiv

4+阅读 · 2018年4月26日

Global Relation Embedding for Relation Extraction

Arxiv

10+阅读 · 2018年4月19日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering

Arxiv

5+阅读 · 2018年4月9日

大家都在搜

大型语言模型

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员