开发 | 刚刚,微软刷新了SQuAD记录...你猜啥时候会被刷下来?

2017 年 9 月 22 日 AI科技评论 岑大师

AI科技评论消息,就在几小时前,斯坦福大学NLP组发推称,微软在昨天提交了一次SQuAD的测试成绩,重新夺回了该数据集测试榜单第一的位置。

在今年7月份,科大讯飞与哈工大联合实验室(HFL)提交的系统模型夺得第一,这也是中国本土研究机构首次取得该比赛的冠军。当时科大讯飞北京研究院院长王士进博士告诉AI科技评论SQuAD的成绩刷新得很快,基本两周或者一个月就会被刷新一次(参见AI科技评论文章:《专访科大讯飞:成为世界第一,只是阅读理解系统万里长征的第一步》)。

SQuAD(Stanford Question Answering Dataset)是行业内公认的机器阅读理解领域的顶级水平测试,被誉为机器阅读理解领域的ImageNet。SQuAD与ImageNet具有诸多共同点:都是各自领域的顶尖测试集,负责人都是斯坦福的新锐青年学者,都得到了工业界和学术界的青睐。

在ImageNet负责人李飞飞在今年IJCAI大会上的《ImageNet:Where we have been,Where we are going》演讲中,李飞飞曾提到这样一个细节:ImageNet团队试图在 2014 年结束竞赛的一个子项目,但却遭到了来自Google、Facebook 等公司的阻力,因为“产业界非常喜欢这个基准”,同样,SQuAD也很讨产业界的喜欢,参赛者包括来自微软总部及微软亚洲研究院、Salesforce、科大讯飞、谷歌以及卡内基·梅隆大学、复旦大学等知名企业研究机构和高校,目前在排行榜上,前三名均来自产业界。

SQuAD数据集刚刚进入第二个年头,目前精确匹配(Exact Match)和模糊匹配(F1-Score)的结果在80%左右,从正确率看大致相当于ImageNet在2012年到2013年的水平,但从难度看,SQuAD要略高于ImageNet:人类在ImageNet测试的错误率在4%左右,而SQuAD人类的精确匹配和模糊匹配错误率分别在18%和9%左右。此外CNN 对模式分类非常适合,其最初就是为识别二维形状而特殊设计的,而在阅读理解领域,虽然大家都在使用深度学习,但始终缺乏像2012年在ImageNet上横空出世的AlexNet这样的突破。

科大讯飞北京研究院院长王士进博士告诉AI科技评论,目前成绩较好的队伍基本都采用的是模型融合(ensemble)的方式,即对于问题提出不同的模型,然后对这些模型进行一个融合,而在融合的过程中,对模型的选型,即如何选择更优秀、鲁棒性更好的模型至关重要。

AI科技评论也注意到,使用好的单一模型取得的成绩与模型融合相差不大,微软AI研究院在这个月提交的一个单模型测试结果就得到了第五名的成绩。由于模型融合会增大对应的计算量,最终工业界是否会对正确率和消耗的资源进行平衡,开发一款“经济实用型”的产品还未为可知。

但工业界会永远为每一个零点零几的提升而努力。“我们技术上最近有一些升级,预计近期会更新一次结果。”王士进告诉AI科技评论

—————  给爱学习的你的福利  —————

3个月,从无人问津到年薪30万的秘密究竟是什么?答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升,让你的职业生涯更有竞争力!长按识别下方二维码(或阅读原文戳开链接)抵达课程详细介绍~

————————————————————

登录查看更多
0

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
17+阅读 · 2020年4月20日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
5+阅读 · 2019年4月21日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
6+阅读 · 2018年6月18日
VIP会员
相关VIP内容
【ACL2020-Google】逆向工程配置的神经文本生成模型
专知会员服务
17+阅读 · 2020年4月20日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
Top
微信扫码咨询专知VIP会员