Currently, the most widespread neural network architecture for training language models is the so called BERT which led to improvements in various NLP tasks. In general, the larger the number of parameters in a BERT model, the better the results obtained in these NLP tasks. Unfortunately, the memory consumption and the training duration drastically increases with the size of these models, though. In this article, we investigate various training techniques of smaller BERT models and evaluate them on five public German NER tasks of which two are introduced by this article. We combine different methods from other BERT variants like ALBERT, RoBERTa, and relative positional encoding. In addition, we propose two new fine-tuning techniques leading to better performance: CSE-tagging and a modified form of LCRF. Furthermore, we introduce a new technique called WWA which reduces BERT memory usage and leads to a small increase in performance.


翻译:目前,培训语言模型最广泛的神经网络结构是所谓的BERT,它导致各种NLP任务的改进。一般来说,BERT模型的参数数量越多,这些NLP任务取得的结果越好。不幸的是,随着这些模型的规模,记忆消耗和培训期限随着这些模型的大小而急剧增加。在本篇文章中,我们调查了小型BERT模型的各种培训技术,并评估了这5个德国公共NER任务,其中2个是由本条款引入的。我们结合了与ALBERT、ROBERTA和相对位置编码等其他BERT变体的不同方法。此外,我们提出了两种新的微调技术,以导致更好的性能:CSE标记和修改的LCRF形式。此外,我们引入了一种叫WWA的新技术,该技术减少了BERT记忆的使用,并导致绩效的微增。

1
下载
关闭预览

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
最新《Transformers模型》教程,64页ppt
专知会员服务
298+阅读 · 2020年11月26日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
38+阅读 · 2020年11月20日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
NLP - 基于 BERT 的中文命名实体识别(NER)
AINLP
466+阅读 · 2019年2月10日
Arxiv
0+阅读 · 2021年4月17日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
6+阅读 · 2019年3月19日
VIP会员
Top
微信扫码咨询专知VIP会员