微软亚洲研究院机器阅读系统在SQuAD挑战赛中率先超越人类水平

2018 年 1 月 13 日 微软研究院AI头条 自然语言计算组


在由斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)文本理解挑战赛的最新榜单上,微软亚洲研究院自然语言计算组于2018年1月3日提交的R-NET模型在EM值(Exact Match, 表示预测答案和真实答案完全匹配)上以82.650的最高分领先,并率先超越人类分数82.304。



微软亚洲研究院院长洪小文第一时间向自然语言计算组表示了祝贺:“这对于微软以及自然语言处理研究领域来说,都是一个重要的里程碑。一方面,微软团队在如此激烈的竞争中,以稳定的成绩长期位居榜首,可喜可贺。团队的最新研究成果已经应用在微软相关的AI产品中。另一方面,计算机文本理解能力首次超越人类,也预示着该领域的研究将会有更大突破,相关的AI应用普及可以期待。


值得一提的是,最新发布的这期榜单中,阿里巴巴、腾讯、科大讯飞等中国研究团队的相关测试成绩也有大幅提升,名列榜单前列。微软亚洲研究院副院长、自然语言计算组负责人周明博士表示:“祝贺中国的自然语言理解研究已经走在世界前列!整个领域的进步需要大家共同的努力和投入来推动。自然语言处理长路漫漫,让我们共勉。”


微软亚洲研究院机器阅读团队


SQuAD挑战赛被称为机器阅读理解界的ImageNet,由斯坦福大学自然语言计算组发起,它通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题),即将一篇几百(平均100,最多800)词左右的短文给标注者阅读,随后让标注人员提出最多5个基于文章内容的问题并提供正确答案。SQuAD向参赛者提供训练集用于模型训练,以及一个规模较小的数据集作为开发集,用于模型的测试和调优。与此同时,他们提供了一个开放平台供参赛者提交自己的算法,并利用测试集对其进行评分,评分结果将实时地在SQuAD官网(点击阅读原文查看)上进行更新。


得益于SQuAD所提供的庞大数据规模,参与该项挑战赛的选手不断地对成绩进行刷新,SQuAD挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试,不断推动着机器阅读理解领域的发展。此前,我们曾经详细介绍过SQuAD挑战赛的具体规则,以及微软亚洲研究院自然语言计算组基于深度神经网络构建的端到端系统R-NET,感兴趣的读者可以点击这里回顾


你也许还想


  从短句到长文,计算机如何学习阅读理解

  周明:中国NLP如何跻身世界顶尖水平?

  书单 | NLP秘笈,从入门到进阶



感谢你关注“微软研究院AI头条”,我们期待你的留言和投稿,共建交流平台。来稿请寄:msraai@microsoft.com。



登录查看更多
0

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
新时期我国信息技术产业的发展
专知会员服务
68+阅读 · 2020年1月18日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
73+阅读 · 2019年10月19日
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
SQuAD文本理解挑战赛十大模型解读
PaperWeekly
5+阅读 · 2018年1月13日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
5+阅读 · 2018年3月16日
VIP会员
相关VIP内容
新时期我国信息技术产业的发展
专知会员服务
68+阅读 · 2020年1月18日
NLP基础任务:文本分类近年发展汇总,68页超详细解析
专知会员服务
73+阅读 · 2019年10月19日
Top
微信扫码咨询专知VIP会员