Bidirectional Encoder Representations from Transformers (BERT) has shown marvelous improvements across various NLP tasks, and its consecutive variants have been proposed to further improve the performance of the pre-trained language models. In this paper, we aim to first introduce the whole word masking (wwm) strategy for Chinese BERT, along with a series of Chinese pre-trained language models. Then we also propose a simple but effective model called MacBERT, which improves upon RoBERTa in several ways. Especially, we propose a new masking strategy called MLM as correction (Mac). To demonstrate the effectiveness of these models, we create a series of Chinese pre-trained language models as our baselines, including BERT, RoBERTa, ELECTRA, RBT, etc. We carried out extensive experiments on ten Chinese NLP tasks to evaluate the created Chinese pre-trained language models as well as the proposed MacBERT. Experimental results show that MacBERT could achieve state-of-the-art performances on many NLP tasks, and we also ablate details with several findings that may help future research. We open-source our pre-trained language models for further facilitating our research community. Resources are available: https://github.com/ymcui/Chinese-BERT-wwm


翻译:变换者(变换者)的双向编码器代表处(BERT)在各种NLP任务中表现出了惊人的改进,并提出了一系列连续的变式,以进一步提高经过培训的语言模式的绩效。在本文中,我们的目标是首先为中国BERT引入全字遮掩(wwm)战略,以及一系列经过培训的中国语言模式。然后我们又提出了一个简单而有效的模式,称为MacBERTER,它以多种方式改进了RoBERTA。特别是,我们提出了一个名为MLM(MAc)的新遮罩战略。为了展示这些模式的有效性,我们创建了一系列经过培训的中国语言模型,作为我们的基线,包括BERT、RoBERTA、ELECTRA、RBT等。我们对十项中国NLP任务进行了广泛的实验,以评价创建的经过培训的中国语言模式以及拟议的MacBERT。实验结果显示,MacBERT能够在许多NLP任务上实现最新的艺术表现,我们还进一步详细介绍了一些结论,这些结论可能有助于未来的研究。 我们的开放资源。

0
下载
关闭预览

相关内容

BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Github项目推荐 | awesome-bert:BERT相关资源大列表
AI研习社
27+阅读 · 2019年2月26日
Arxiv
0+阅读 · 2022年1月27日
Arxiv
5+阅读 · 2021年4月16日
Arxiv
8+阅读 · 2021年3月2日
Arxiv
5+阅读 · 2020年10月14日
Arxiv
3+阅读 · 2019年9月5日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
12+阅读 · 2019年2月28日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关VIP内容
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关论文
Arxiv
0+阅读 · 2022年1月27日
Arxiv
5+阅读 · 2021年4月16日
Arxiv
8+阅读 · 2021年3月2日
Arxiv
5+阅读 · 2020年10月14日
Arxiv
3+阅读 · 2019年9月5日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
12+阅读 · 2019年2月28日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
Top
微信扫码咨询专知VIP会员