We present RobeCzech, a monolingual RoBERTa language representation model trained on Czech data. RoBERTa is a robustly optimized Transformer-based pretraining approach. We show that RobeCzech considerably outperforms equally-sized multilingual and Czech-trained contextualized language representation models, surpasses current state of the art in all five evaluated NLP tasks and reaches state-of-the-art results in four of them. The RobeCzech model is released publicly at https://hdl.handle.net/11234/1-3691 and https://huggingface.co/ufal/robeczech-base.


翻译:我们介绍了只用一种语言进行捷克数据培训的罗贝塔语言代表模式罗贝茨奇。罗贝塔是一种以变异器为基础的严格优化的预培训方法。我们表明,罗贝茨奇的多语种和经过捷克培训的背景语言代表模式大大优于同等规模的多语种和捷克语言代表模式,在所有五项经评估的国家语言方案任务中都超过了目前的最新水平,并在其中四项任务中达到了最先进的成果。罗贝茨模式在https://hdl.handle.net/11134/1-3691和https://huggingface.co/ufal/robeczech-base上公开发布。

0
下载
关闭预览

相关内容

语言表示一直是人工智能、计算语言学领域的研究热点。从早期的离散表示到最近的分散式表示,语言表示的主要研究内容包括如何针对不同的语言单位,设计表示语言的数据结构以及和语言的转换机制,即如何将语言转换成计算机内部的数据结构(理解)以及由计算机内部表示转换成语言(生成)。
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
4+阅读 · 2019年8月19日
VIP会员
Top
微信扫码咨询专知VIP会员