动态 | 微软刷新CoQA对话问答挑战赛纪录,模型性能达到人类同等水平

2019 年 5 月 8 日 AI研习社

AI 科技评论按来自微软亚洲研究院(MSRA)自然语言处理(NLP)小组和微软 Redmond 语言对话研究小组的一组研究人员目前在斯坦福大学组织的对话问答(COQA)挑战中处于领先位置。在这一挑战中,衡量机器的方法是其理解文本段落和回答会话中出现的一系列相互关联的问题的能力大小。微软目前是唯一一个在其模型性能上达到人类同等水平的团队。

CoQA 是一个大型的会话问答数据集,由来自不同领域的一组文章上的会话问题组成。MSRA NLP 团队使用斯坦福问答数据集(SQuAD)在单轮问答上达到了人类同等水平,这是一个新的里程碑。与 SQuAD 相比,CoQA 中的问题更具对话性,为了确保答案看起来自然,它可以是自由格式的文本。

CoQA 中的问题非常简短,可以模仿人类的对话。此外,第一个问题之后的每个问题都是基于前面的问题的,这使得机器更难解析简短的问题。例如,假设你问一个系统,「谁是微软的创始人?」,当你继续问第二个问题「他什么时候出生的?」时,你需要理解你仍然在谈论和之前相同的话题。

来自 CoQA 数据集的对话。CoQA 论文:https://arxiv.org/abs/1808.07042

为了更好地测试现有模型的泛化能力,CoQA 从收集了七个不同领域的数据:儿童故事、文学、初高中英语考试、新闻、维基百科、Reddit 和科学。前五个用于训练、开发和测试集,后两个仅用于测试集。CoQA 使用 F1 度量来评估性能。F1 度量衡量的是预测内容和真实答案答案之间的平均重叠词。域内 F1 根据训练集所在域的测试数据进行评分;域外 F1 根据不同域的测试数据进行评分。总的 F1 度量值是整个测试集的最终得分。

微软研究人员所采用的方法使用了一种特殊的策略,即利用从几个相关任务中获得的信息来改进目标机器阅读理解(MRC)任务。在多阶段、多任务、微调方法中,研究人员首先在多任务设置下从相关任务中学习 MRC 相关背景信息,然后对目标任务的模型进行微调。语言建模在这两个阶段都作为辅助任务使用,以帮助减少会话问答模型的过度拟合。实验证明了该方法的有效性,其在 CoQA 挑战中的强大性能也证明了这一点。

多级多任务微调模型概述

根据 CoQA 排行榜,微软研究人员于 2019 年 3 月 29 日提交的系统得分达到 89.9/88.0/89.4,分别作为其领域内、领域外和整体 F1 分数。而在面对同一组会话问题和答案,人的表现得分为 89.4/87.4/88.8。

这一成就标志着搜索引擎(如 Bing)和智能助手(如 Cortana)在与人互动和以更自然的方式提供信息方面取得了重大进展,就像人们相互交流一样。然而,一般的机器阅读理解和问答仍然是自然语言处理中未解决的问题。为了进一步扩大机器理解和生成自然语言的能力边界,团队将继续致力于生成更强大的预训练模型。

via www.microsoft.com/en-us/research/blog/


点击
阅读原文
,查看 Github项目推荐 | gpt-2 输出数据集
登录查看更多
4

相关内容

【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
54+阅读 · 2020年6月24日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
SQuAD文本理解挑战赛十大模型解读
黑龙江大学自然语言处理实验室
7+阅读 · 2018年1月17日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
VIP会员
相关资讯
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
SQuAD文本理解挑战赛十大模型解读
黑龙江大学自然语言处理实验室
7+阅读 · 2018年1月17日
Top
微信扫码咨询专知VIP会员