微软亚洲研究院机器阅读系统在SQuAD挑战赛中率先超越人类水平 - 专知

会员服务 ·

0

微软亚洲研究院机器阅读系统在SQuAD挑战赛中率先超越人类水平

2018 年 1 月 13 日 微软研究院AI头条 自然语言计算组

在由斯坦福大学发起的SQuAD（Stanford Question Answering Dataset）文本理解挑战赛的最新榜单上，微软亚洲研究院自然语言计算组于2018年1月3日提交的R-NET模型在EM值（Exact Match, 表示预测答案和真实答案完全匹配）上以82.650的最高分领先，并率先超越人类分数82.304。

微软亚洲研究院院长洪小文第一时间向自然语言计算组表示了祝贺：“这对于微软以及自然语言处理研究领域来说，都是一个重要的里程碑。一方面，微软团队在如此激烈的竞争中，以稳定的成绩长期位居榜首，可喜可贺。团队的最新研究成果已经应用在微软相关的AI产品中。另一方面，计算机文本理解能力首次超越人类，也预示着该领域的研究将会有更大突破，相关的AI应用普及可以期待。”

值得一提的是，最新发布的这期榜单中，阿里巴巴、腾讯、科大讯飞等中国研究团队的相关测试成绩也有大幅提升，名列榜单前列。微软亚洲研究院副院长、自然语言计算组负责人周明博士表示：“祝贺中国的自然语言理解研究已经走在世界前列！整个领域的进步需要大家共同的努力和投入来推动。自然语言处理长路漫漫，让我们共勉。”

微软亚洲研究院机器阅读团队

SQuAD挑战赛被称为机器阅读理解界的ImageNet，由斯坦福大学自然语言计算组发起，它通过众包的方式构建了一个大规模的机器阅读理解数据集（包含10万个问题），即将一篇几百（平均100，最多800）词左右的短文给标注者阅读，随后让标注人员提出最多5个基于文章内容的问题并提供正确答案。SQuAD向参赛者提供训练集用于模型训练，以及一个规模较小的数据集作为开发集，用于模型的测试和调优。与此同时，他们提供了一个开放平台供参赛者提交自己的算法，并利用测试集对其进行评分，评分结果将实时地在SQuAD官网（点击阅读原文查看）上进行更新。

得益于SQuAD所提供的庞大数据规模，参与该项挑战赛的选手不断地对成绩进行刷新，SQuAD挑战赛也逐步成为行业内公认的机器阅读理解标准水平测试，不断推动着机器阅读理解领域的发展。此前，我们曾经详细介绍过SQuAD挑战赛的具体规则，以及微软亚洲研究院自然语言计算组基于深度神经网络构建的端到端系统R-NET，感兴趣的读者可以点击这里回顾。

你也许还想看：

● 从短句到长文，计算机如何学习阅读理解

● 周明：中国NLP如何跻身世界顶尖水平？

● 书单 | NLP秘笈，从入门到进阶

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。

登录查看更多

0

相关内容

机器阅读理解

机器阅读理解

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务：让机器像人类一样阅读文本，进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

专知会员服务

48+阅读 · 2020年2月15日

新时期我国信息技术产业的发展

新时期我国信息技术产业的发展

专知会员服务

71+阅读 · 2020年1月18日

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

专知会员服务

26+阅读 · 2019年11月23日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日

知识图谱与语义理解，百度研究院王海峰院长，CCKS-2019：知识智能

知识图谱与语义理解，百度研究院王海峰院长，CCKS-2019：知识智能

专知会员服务

60+阅读 · 2019年10月25日

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

51+阅读 · 2019年10月23日

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

47+阅读 · 2019年10月23日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

74+阅读 · 2019年10月19日

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

专知会员服务

18+阅读 · 2019年6月17日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

AI研习社

4+阅读 · 2019年5月8日

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软研究院AI头条

4+阅读 · 2019年5月6日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

机器之心

5+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

专访 | 哈工大讯飞联合实验室刷新SQuAD 2.0机器阅读理解挑战赛纪录

专访 | 哈工大讯飞联合实验室刷新SQuAD 2.0机器阅读理解挑战赛纪录

哈工大SCIR

16+阅读 · 2019年3月28日

首超人类水平！哈工大讯飞联合实验室登顶机器阅读理解评测SQuAD 2.0

首超人类水平！哈工大讯飞联合实验室登顶机器阅读理解评测SQuAD 2.0

哈工大SCIR

3+阅读 · 2019年3月26日

SQuAD文本理解挑战赛十大模型解读

SQuAD文本理解挑战赛十大模型解读

PaperWeekly

6+阅读 · 2018年1月13日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Message Passing for Complex Question Answering over Knowledge Graphs

Message Passing for Complex Question Answering over Knowledge Graphs

Arxiv

6+阅读 · 2019年8月19日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月31日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

QuAC : Question Answering in Context

QuAC : Question Answering in Context

Arxiv

4+阅读 · 2018年8月21日

Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

Arxiv

8+阅读 · 2018年4月26日

QA4IE: A Question Answering based Framework for Information Extraction

Arxiv

4+阅读 · 2018年4月10日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection

Arxiv

4+阅读 · 2018年1月10日

VIP会员

相关主题

机器阅读理解

微软亚洲研究院

微软亚洲研究院自然语言计算组

相关VIP内容

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

人类语言技术展望，中国科学院自动化研究所研究员宗成庆

专知会员服务

48+阅读 · 2020年2月15日

新时期我国信息技术产业的发展

新时期我国信息技术产业的发展

专知会员服务

71+阅读 · 2020年1月18日

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

【NLP| 推荐文章】神经阅读理解与超越（Neural Reading Comprehension And Beyond）

专知会员服务

26+阅读 · 2019年11月23日

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

斯坦福陈丹琦博士论文：神经网络阅读理解与更多【附156页pdf】

专知会员服务

65+阅读 · 2019年10月27日

知识图谱与语义理解，百度研究院王海峰院长，CCKS-2019：知识智能

知识图谱与语义理解，百度研究院王海峰院长，CCKS-2019：知识智能

专知会员服务

60+阅读 · 2019年10月25日

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之问答系统【唐都钰段楠】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

51+阅读 · 2019年10月23日

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

问答与对话-技术与系统之基于深度学习的机器阅读理解【崔一鸣】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第14期

专知会员服务

47+阅读 · 2019年10月23日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

74+阅读 · 2019年10月19日

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

【CVPR 2019|workshop】视觉问答和对话，Visual Question Answering and Dialog，斯坦福大学|Christopher Manning，Google DeepMind|Karl Moritz Hermann

专知会员服务

18+阅读 · 2019年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《为多域数字战场变革装甲力量》报告

《多域训练：利用开放标准将太空与网络域同陆、海、空域训练相整合》报告

面向城市战：欧美徒步作战新装备

《人工智能增强监视分析：利用跨网络、陆地、空中及海上领域的威胁向量实时建模》

相关资讯

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

AI研习社

4+阅读 · 2019年5月8日

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软研究院AI头条

4+阅读 · 2019年5月6日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

机器之心

5+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

专访 | 哈工大讯飞联合实验室刷新SQuAD 2.0机器阅读理解挑战赛纪录

专访 | 哈工大讯飞联合实验室刷新SQuAD 2.0机器阅读理解挑战赛纪录

哈工大SCIR

16+阅读 · 2019年3月28日

首超人类水平！哈工大讯飞联合实验室登顶机器阅读理解评测SQuAD 2.0

首超人类水平！哈工大讯飞联合实验室登顶机器阅读理解评测SQuAD 2.0

哈工大SCIR

3+阅读 · 2019年3月26日

SQuAD文本理解挑战赛十大模型解读

SQuAD文本理解挑战赛十大模型解读

PaperWeekly

6+阅读 · 2018年1月13日

相关论文

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Message Passing for Complex Question Answering over Knowledge Graphs

Message Passing for Complex Question Answering over Knowledge Graphs

Arxiv

6+阅读 · 2019年8月19日

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

HCqa: Hybrid and Complex Question Answering on Textual Corpus and Knowledge Graph

Arxiv

3+阅读 · 2019年1月31日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

QuAC : Question Answering in Context

QuAC : Question Answering in Context

Arxiv

4+阅读 · 2018年8月21日

Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

Arxiv

8+阅读 · 2018年4月26日

QA4IE: A Question Answering based Framework for Information Extraction

Arxiv

4+阅读 · 2018年4月10日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection

Arxiv

4+阅读 · 2018年1月10日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员