XLM-RoBERTa: 一种多语言预训练模型

2020 年 7 月 31 日 AINLP


每日英文

Wisdom in the mind is better than money in the hand.

脑中有知识,胜过手中有金钱。

Recommender:云不见



作者:Branden Chan

原文链接:

https://medium.com/deepset-ai/xlm-roberta-the-multilingual-alternative-for-non-english-nlp-cf0b889ccbbf

翻译:王萌 澳门城市大学(深度学习自然语言处理公众号)



多语言模型是否改善了单语言模型的不足?


巴别塔(图片来自维基百科)


如果您使用非英语语言进行NLP,则经常会困扰于“我应该使用哪种语言模型?”这一问题。尽管社区的单语训练模型越来越多,但还有一种似乎不太受关注的替代方法:多语言模型。


在本文中,我们重点介绍XLM-R模型的关键要素,并探讨其在德语中的性能。我们发现,在三个流行的德语数据集上,它的表现优于我们的单语德语;虽然在 GermEval18 (仇恨语音检测) 上与 SOTA 性能相当,但在 GermEval14  (NER) 上显著优于以前的方法。



为什么要使用多语言模型?



XLM-Roberta的出现正值非英语模式如Finnish BERT,French BERT(又称CamemBERT)和German BERT激增之时。通过与研究人员的交流互动以及与业界的联系,我们意识到,现在确实需要将尖端NLP技术用于非英语语言。


我们也坚信,多语言模型对于那些期望未来扩张的公司来说是一个很好的解决方案。过去,我们与客户合作过,这些客户目前只使用一种语言运营,但有将服务扩展到全球的雄心。对他们来说,多语言模型是一种面向未来的形式,可确保其有的 NLP 基础架构能够让他们无论选择多少地区开展业务都可以去拓展。



XLM-Roberta有什么新功能?



Facebook AI团队于2019年11月发布了XLM-RoBERTa,作为其原始XLM-100模型的更新。它们都是基于转换器的语言模型,都依赖于掩码语言模型目标,并且都能够处理100种不同语言的文本。相较于原始版本,XLM-Roberta的最大更新是训练数据量的显著增加。经过清洗训练过的常用爬虫数据集占用高达2.5tb的存储空间!它比用来训练其前身的Wiki-100语料库大几个数量级,并且在资源较少的语言中,扩展尤其明显。它比用来训练其前版本的Wiki-100语料库大几个数量级,并且在资源较少的语言中,这种扩大尤其明显。“ RoBERTa”从某方面来说,它的训练程序与单语言RoBERTa模型相同,特别是唯一的训练目标是掩码语言模型。它没有下句预测的á la BERT模型或者句子顺序预测的á la ALBERT模型。


每种语言的常见爬虫数据集的容量增加超过了维基百科的(来自XLM-RoBERTa论文)


XLM-Roberta现在使用一个大型共享语句块模型来标记字符串,而不是像XLM-100那样具有大量特定语言的分词器。验证困惑度也不再用作训练时的停止标准,因为研究人员发现,即使困惑度没有提高,后续性能也继续提高。



结果



最后,我们对XLM-RoBERTa的一分类和两项NER任务进行了评估,它们表现出了非常出色的性能。XLM-RoBERTa Large与GermEval18(分类)的最佳提交分数不相上下。在GermEval14(NER)上,该模型在F1的表现比在Flair的要好2.35%。


评估结果。这里是GermEval18 的排行榜,这里是Flair报告的分数


这些结果是在不进行大量超参数调整的情况下得出的,我们希望通过进一步调整学习率和batch大小可以改善这些结果。另外,对于NER任务,我们认为在XLM-RoBERTa的上一层添加CRF层会有所收获。




结论



这些结果实力表明,即使在单一语言上进行评估,多语言模型也表现出出色的性能,我们建议德国NLP从业人员在为其NLP系统选择语言模型时至少考虑XLM-Roberta变体之一。打破以英语为中心的NLP研究的重要性已经被Emily Bender教授广泛地讨论过,我们相信非英语语言的研究只会增加。我们认为,未来最好的模型可以从文本中学习,不仅可以从不同的领域而且可以从不同的语言中学习,这并不是不可思议的。


编辑于17/02/20:我们之前曾报告过CoNLL2003的分数由于数据集问题而有误


推荐阅读

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

完结撒花!李宏毅老师深度学习与人类语言处理课程视频及课件(附下载)

从数据到模型,你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,分享、点赞、在看三选一吧🙏


登录查看更多
1

相关内容

【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
ACL 2019 | 多语言BERT的语言表征探索
AI科技评论
20+阅读 · 2019年9月6日
20项任务全面碾压BERT,全新XLNet预训练模型
机器学习算法与Python学习
15+阅读 · 2019年6月20日
进一步改进GPT和BERT:使用Transformer的语言模型
机器之心
16+阅读 · 2019年5月1日
跨语言版BERT:Facebook提出跨语言预训练模型XLM
机器之心
4+阅读 · 2019年2月6日
Arxiv
11+阅读 · 2019年6月19日
How to Fine-Tune BERT for Text Classification?
Arxiv
13+阅读 · 2019年5月14日
Arxiv
5+阅读 · 2019年4月21日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Conditional BERT Contextual Augmentation
Arxiv
8+阅读 · 2018年12月17日
VIP会员
相关资讯
相关论文
Top
微信扫码咨询专知VIP会员