哈工大讯飞联合实验室发布中文XLNet预训练模型

2019 年 8 月 20 日 哈工大SCIR

声明: 本文转载自公众号 哈工大讯飞联合实验室

为了进一步促进中文信息处理发展，哈工大讯飞联合实验室（HFL）发布在大规模语料上训练的首个中文XLNet预训练模型，填补了该模型在中文自然语言处理领域的空白，同时该预训练模型在中文机器阅读理解等任务中获得显著性能提升。我们欢迎各界同行下载使用并共同参与建设中文资源。

下载地址：

https://github.com/ymcui/Chinese-PreTrained-XLNet

摘要

哈工大讯飞联合实验室在前不久发布了基于全词Mask的中文预训练模型BERT-wwm以及BERT-wwm-ext模型，受到业界广泛关注及下载使用，在此表示衷心的感谢。为了进一步提升中文自然语言处理任务效果，推动中文信息处理发展，我们使用大规模中文语料训练了首个中文XLNet预训练模型，填补了该模型在中文自然语言处理领域的空白。经过我们的初步实验证明该模型在中文机器阅读理解任务中获得了显著性能提升。

预训练细节

本次发布的中文XLNet模型采用了24层Transformer结构，总参数量为209M。预训练数据总词数达到5.4B。训练时采用的最大长度为512，总训练步数达到2M步，batch size为32。训练采用了谷歌Cloud TPU v3版本（128G HBM），总训练时长约3周。为了保证结果的可靠性，在下游任务精调过程中，对于同一模型，我们运行10遍（不同随机种子），汇报模型性能的最大值和平均值。

基线测试结果

中文简体阅读理解：CMRC 2018

CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据，前不久被EMNLP-IJCNLP 2019录用。根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与SQuAD相同。可以看到XLNet模型相比于BERT以及我们发布的BERT-wwm、BERT-wwm-ext模型均有显著的性能提升，尤其是在挑战集合上涨幅非常明显。