超难NLP新基准SuperGLUE正式发布:横扫SOTA模型BERT勉强过关

2019 年 8 月 15 日 新智元




  新智元原创  

编辑:鹏飞
【新智元导读】Facebook AI Research、Google DeepMind、华盛顿大学和纽约大学合作,共同推出了SuperGLUE,这是一系列用来衡量现代高性能语言理解AI表现的基准测试任务,SuperGLUE针对的是已经达到挑战上限的会话式AI深度学习模型,为其提供更难的挑战,其比GLUE基准任务更负责,旨在构建能处理更加复杂和掌握更细微差别的语言模型。


目前NLP主要着眼在多任务学习和语言模型预训练,从而孕育出各种模型,如BERT、Transformer、Elmo、MT-DNN、GPT-2等。为了评估这些模型的精准度,GLUE基准应运而生。


SuperGLUE正式上线:NLP模型们,来迎接挑战吧!


GLUE全称是通用语言理解评估(General Language Understanding Evaluation),基于已有的9种英文语言理解任务,涵盖多种数据集大小、文本类型和难度。终极目标是推动研究,开发通用和强大的自然语言理解系统。


但随着NLP模型狂飙似的发展速度,仅推出一年时间的GLUE基准,已经显得有些力不从心。于是,Facebook AI研究院、谷歌DeepMind、华盛顿大学以及纽约大学4家公司和高校开始携手打造进化版新基准:SuperGLUE



近日,进化后的基准也正式宣布上线,可供大家使用了!


地址:

https://gluebenchmark.com


因为BERT在GLUE上是当前最成功的方法,所以SuperGLUE也使用BERT-LARGE-CASED variant.11作为模型性能基准。


什么是SuperGLUE?


如果你搜索SuperGLUE,出现在首页的一定的各种胶水。这也是科技公司在给产品起名时特别喜欢玩儿的一个梗:利用命名的首字母缩写成为一个十分普通、十分常见的英文单词,这个单词经常和实际的科技产品毫不相关。


实际上,我们今天要介绍的SuperGLUE,全称是超(级)通用语言理解评估(Super General-Purpose Language Understanding Evaluation)。


据SuperGLUE团队介绍,为了获得更强悍的任务集,他们向各个NLP社区发出了征集令,并最终获得一个包含约30种不同NLP任务的列表。随后按照如下标准筛选:


  • 任务本质:即测试系统理解英语的能力
  • 任务难度:即超出当前最先进模型的能力
  • 可评估性:具备自动评断机制,同时还需要能够准确对应人类的判断或表现
  • 公开数据:拥有可公开的数据
  • 任务格式:提升输入值的复杂程度,允许出现复杂句子、段落和文章等
  • 任务许可:所用数据必须获得研究和重新分发的许可


最终获得一个包含7个任务的集合。然后,以这7个任务为基础构建公开排行榜。


此外,SuperGLUE还包含基于已有数据的抽取、单个数值的表现指标,以及一套分析工具包jiant。

下载地址:
https://jiant.info/


相比GLUE有哪些变化?效果如何?


进化后的新基准,难度有了大幅提升,应对起当前这些发育迅猛的NLP模型更加得心应手,从而可以鼓励构建能够掌握更复杂,或具有更细微差别的语言的模型。


相比上一代GLUE,首先研究人员向原有的11项任务开刀,直接砍掉其中的9项,并对剩下的2项任务进行了升级,这两项任务分别是识别文本蕴涵(RTE)和Winograd模式挑战赛(WSC)。


之后,5项新的评估基准也被添加进来,用于测试模型在回答问题、指代消解和常识推理方面的能力。这5项新任务分别是:CB,COPA,GAP,MultiRC和WiC。


初始的SuperGLUE基准版本包含了人类水平估计结果,扩展了GLUE中的句子和句子的分类,还包含了共指消解、句子完成和问答。


SuperGLUE任务集合比较多样化,为了帮助研究者能够开发出统一的新方法,SuperGLUE团队还贴心的为研究人员提供了一套基于PyTorch和AllenNLP、用来操作NLP的预训练、多任务学习和迁移学习的模块化建模工具包。


此外,因为考虑到公平性、信息的丰富性,管理SuperGLUE排行榜的规则也有很多地方和GLUE有所区别,以期能充分体现数据和任务创建者的贡献。


研究人员用主流NLP模型对新基准进行了测试,效果如下图:



任务示例:



值得一提的是,即使是当前最先进的BERT模型,量化后的综合分数,比人类低了约16.8%。这样的表现,恐怕只能勉强算过得去而已。


论文:
https://w4ngatang.github.io/static/papers/superglue.pdf

登录查看更多
3

相关内容

Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE!
机器学习算法与Python学习
8+阅读 · 2019年10月27日
ChineseGLUE:为中文NLP模型定制的自然语言理解基准
BERT之后,GLUE基准升级为SuperGLUE:难度更大
机器之心
5+阅读 · 2019年4月28日
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
22+阅读 · 2018年8月30日
Arxiv
3+阅读 · 2018年6月1日
Arxiv
8+阅读 · 2018年1月19日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关论文
Top
微信扫码咨询专知VIP会员