动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平 - 专知

会员服务 ·

0

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

2019 年 5 月 8 日 AI研习社

AI 科技评论按，来自微软亚洲研究院（MSRA）自然语言处理（NLP）小组和微软 Redmond 语言对话研究小组的一组研究人员目前在斯坦福大学组织的对话问答（COQA）挑战中处于领先位置。在这一挑战中，衡量机器的方法是其理解文本段落和回答会话中出现的一系列相互关联的问题的能力大小。微软目前是唯一一个在其模型性能上达到人类同等水平的团队。

CoQA 是一个大型的会话问答数据集，由来自不同领域的一组文章上的会话问题组成。MSRA NLP 团队使用斯坦福问答数据集（SQuAD）在单轮问答上达到了人类同等水平，这是一个新的里程碑。与 SQuAD 相比，CoQA 中的问题更具对话性，为了确保答案看起来自然，它可以是自由格式的文本。

CoQA 中的问题非常简短，可以模仿人类的对话。此外，第一个问题之后的每个问题都是基于前面的问题的，这使得机器更难解析简短的问题。例如，假设你问一个系统，「谁是微软的创始人？」，当你继续问第二个问题「他什么时候出生的？」时，你需要理解你仍然在谈论和之前相同的话题。

来自 CoQA 数据集的对话。CoQA 论文：https://arxiv.org/abs/1808.07042

为了更好地测试现有模型的泛化能力，CoQA 从收集了七个不同领域的数据：儿童故事、文学、初高中英语考试、新闻、维基百科、Reddit 和科学。前五个用于训练、开发和测试集，后两个仅用于测试集。CoQA 使用 F1 度量来评估性能。F1 度量衡量的是预测内容和真实答案答案之间的平均重叠词。域内 F1 根据训练集所在域的测试数据进行评分；域外 F1 根据不同域的测试数据进行评分。总的 F1 度量值是整个测试集的最终得分。

微软研究人员所采用的方法使用了一种特殊的策略，即利用从几个相关任务中获得的信息来改进目标机器阅读理解（MRC）任务。在多阶段、多任务、微调方法中，研究人员首先在多任务设置下从相关任务中学习 MRC 相关背景信息，然后对目标任务的模型进行微调。语言建模在这两个阶段都作为辅助任务使用，以帮助减少会话问答模型的过度拟合。实验证明了该方法的有效性，其在 CoQA 挑战中的强大性能也证明了这一点。

多级多任务微调模型概述

根据 CoQA 排行榜，微软研究人员于 2019 年 3 月 29 日提交的系统得分达到 89.9/88.0/89.4，分别作为其领域内、领域外和整体 F1 分数。而在面对同一组会话问题和答案，人的表现得分为 89.4/87.4/88.8。

这一成就标志着搜索引擎（如 Bing）和智能助手（如 Cortana）在与人互动和以更自然的方式提供信息方面取得了重大进展，就像人们相互交流一样。然而，一般的机器阅读理解和问答仍然是自然语言处理中未解决的问题。为了进一步扩大机器理解和生成自然语言的能力边界，团队将继续致力于生成更强大的预训练模型。

via www.microsoft.com/en-us/research/blog/

点击

阅读原文

，查看 Github项目推荐 | gpt-2 输出数据集

登录查看更多

4

相关内容

模型性能

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

45+阅读 · 2020年1月23日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软研究院AI头条

4+阅读 · 2019年5月6日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

机器之心

5+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

专知

6+阅读 · 2018年8月23日

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

机器之心

4+阅读 · 2018年6月13日

SQuAD文本理解挑战赛十大模型解读

SQuAD文本理解挑战赛十大模型解读

黑龙江大学自然语言处理实验室

7+阅读 · 2018年1月17日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

QuAC : Question Answering in Context

QuAC : Question Answering in Context

Arxiv

4+阅读 · 2018年8月21日

Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

Arxiv

8+阅读 · 2018年4月26日

Reinforced Mnemonic Reader for Machine Reading Comprehension

Arxiv

10+阅读 · 2018年4月25日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

QA4IE: A Question Answering based Framework for Information Extraction

Arxiv

4+阅读 · 2018年4月10日

A Question-Focused Multi-Factor Attention Network for Question Answering

Arxiv

6+阅读 · 2018年1月25日

VIP会员

相关主题

微软亚洲研究院深度与强化学习组

相关VIP内容

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

24+阅读 · 2020年4月7日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

45+阅读 · 2020年2月12日

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

机器阅读理解的任务与模式研究，61页pdf，多伦多约克大学

专知会员服务

45+阅读 · 2020年1月23日

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

【AAAI2020接受论文】隐式关系语言模型，CMU&微软，Latent Relation Language Models

专知会员服务

54+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

人工智能时代背景下的未来海战

相关资讯

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软机器阅读理解系统性能升级，刷新CoQA对话式问答挑战赛纪录

微软研究院AI头条

4+阅读 · 2019年5月6日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

微软机器阅读理解超越人类水平，CoQA数据集得分刷新记录

机器之心

5+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

BERT霸榜问答任务，谷歌新基准模型缩小AI与人类差距50%

未来产业促进会

4+阅读 · 2019年1月31日

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

CoQA！斯坦福召开新一轮QA比赛，剑指对话问答！

专知

6+阅读 · 2018年8月23日

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

ACL 2018 | 最佳短论文SQuAD 2.0：斯坦福大学发布的机器阅读理解问答数据集

机器之心

4+阅读 · 2018年6月13日

SQuAD文本理解挑战赛十大模型解读

SQuAD文本理解挑战赛十大模型解读

黑龙江大学自然语言处理实验室

7+阅读 · 2018年1月17日

相关论文

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Span-based Joint Entity and Relation Extraction with Transformer Pre-training

Arxiv

7+阅读 · 2019年9月17日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

QuAC : Question Answering in Context

QuAC : Question Answering in Context

Arxiv

4+阅读 · 2018年8月21日

Evidence Aggregation for Answer Re-Ranking in Open-Domain Question Answering

Arxiv

8+阅读 · 2018年4月26日

Reinforced Mnemonic Reader for Machine Reading Comprehension

Arxiv

10+阅读 · 2018年4月25日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Training a Ranking Function for Open-Domain Question Answering

Arxiv

5+阅读 · 2018年4月12日

QA4IE: A Question Answering based Framework for Information Extraction

Arxiv

4+阅读 · 2018年4月10日

A Question-Focused Multi-Factor Attention Network for Question Answering

Arxiv

6+阅读 · 2018年1月25日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

模型压缩 | 知识蒸馏经典解读

微信扫码咨询专知VIP会员