SQuAD2.0来了!现在这里有了机器「无法回答的问题」

2018 年 6 月 13 日 AI科技评论

自然语言处理现在也有了对抗性问题。

AI 科技评论按:斯坦福大学 NLP 组(Stanford NLP Group)昨晚发出公告,文本理解挑战赛 & 数据集 SQuAD 升级为 SQuAD 2.0,在原来基础上增加对抗性问题的同时,也新增了一项任务「判断一个问题能否根据提供的阅读文本作答」。新版本 SQuAD 2.0 由斯坦福大学计算机系 Pranav Rajpurkar, Robin Jia, Percy Liang 三人在获得 ACL 2018 最佳论文奖的论文《Know What You Don't Know: Unanswerable Questions for SQuAD》(https://arxiv.org/abs/1806.03822)中提出。SQuAD 页面的主题色也从玫红色更换为了蓝紫色。

基于 SQuAD( Stanford  Question     Answering Dataset)的文本理解挑战赛,是行业内公认的机器阅读理解领域的顶级水平测试;它构建了一个包含十万个问题的大规模机器阅读理解数据集,选取超过 500 篇的维基百科文章。数据集中每一个阅读理解问题的答案是来自给定的阅读文章的一小段文本 —— 以及,现在在 SQuAD 2.0 中还要判断这个问题是否能够根据当前的阅读文本作答。

在原来的 SQuAD(SQuAD 1.1)的十万个问题 - 答案对的基础上,SQuAD 2.0 中新增了超过五万个新增的、由人类众包者对抗性地设计的无法回答的问题。执行 SQuAD 2.0 阅读理解任务的模型不仅要能够在问题可回答时给出答案,还要判断哪些问题是阅读文本中没有材料支持的,并拒绝回答这些问题。

图示为两个无法回答的问题。红色标出的答案看似有理,但其实是错误的。

Pranav Rajpurkar, Robin Jia, Percy Liang 三人撰写了论文《Know What You Don't Know: Unanswerable Questions for SQuAD》对这一新任务以及 SQuAD 2.0 做了介绍。论文中为 SQuAD 2.0 设立了新的人类表现基准线(EM 86.831,F1 89.452)的同时,也通过对比展现出了 SQuAD 2.0 的难度:一个强有力的基于神经网络的系统可以在 SQuAD 1.1 上得到 86% 的 F1 分数,但在 SQuAD 2.0 上只能得到 66%。

这篇论文也获得了 ACL 2018 最佳论文奖。其它四篇最佳论文为:

1、Finding syntax in human encephalography with beam search

  • 用束搜索在人脑成像中寻找句法

  • 论文摘要:循环神经网络文法(RNNGs)是对于「树-字符串」对的生成式模型,它们依靠神经网络来评价派生的选择。用束搜索对它们进行解析可以得到各种不同复杂度的评价指标,比如单词惊异数(word surprisal count)和解析器动作数(parser action count)。当把它们用作回归因子,解析人类大脑成像图像中对于自然语言文本的电生理学响应时,它们可以带来两个增幅效果:一个早期的峰值以及一个类似 P600 的稍迟的峰值。相比之下,一个不具有句法结构的神经语言模型无法达到任何可靠的增幅效果。通过对不同模型的对比,早期峰值的出现可以归功于 RNNG 中的句法组合。结果中体现出的这种模式表明 RNNG+束搜索的组合可以作为正常人类语言处理中的语法处理的一个不错的机理解释模型。

  • 论文地址:

    https://arxiv.org/abs/1806.04127

  • 论文四位作者中的三位来自 DeepMind,另一位来自密歇根大学文学、科学与艺术学院计算神经语言学实验室

2、Learning to Ask Good Questions: Ranking Clarification Questions using Neural Expected Value of Perfect Information

  • 学习如何问好的问题:通过完全信息下的期待值为追问问题排序

  • 论文摘要:在沟通中,提问是一大基本要素:如果机器不知道如何问问题,那它们也就无法高效地与人类合作。在这项研究中,作者们构建了一个神经网络用于给追问的问题做排名。作者们模型设计的启发来源于完全信息情况下的期待值:一个可以期待获得有用的答案的问题就是一个好问题。作者们根据 StackExchange 上抓取的数据研究了这个问题;StackExchange 是一个内容丰富的在线咨询平台,其中有人发帖咨询以后,别的用户会在下面追问起到解释澄清作用的问题,以便更好地了解状况、帮助到发帖人。论文作者们创建了一个由这样的追问问题组成的数据集,其中包含了 StackExchange 上 askubuntu、unix、superuser 这三个领域的约 77k 组发帖+追问问题+问题的回答。作者们在其中的 500 组样本上评估了自己的模型,相比其他基准模型有显著的提高;同时他们也与人类专家的判断进行了对比。

  • 论文地址:

    https://arxiv.org/abs/1805.04655

  • 论文作者来自马里兰大学与微软研究院

3、Let's do it "again": A First Computational Approach to Detecting Adverbial Presupposition Triggers

  • 让我们「再」做一次:首个检测假定状态触发副词的计算性方法

  • 论文摘要:这篇论文中,作者们介绍了一种新的研究课题——预测副词词性的假定状态触发语(adverbial presupposition triggers),比如「also」和「again」。完成这样的任务需要在对话上下文里寻找重复出现的或者相似的内容;这项任务的研究成果则可以在文本总结或者对话系统这样的自然语言生成任务中起到帮助。作者们为这项任务创造了两个新的数据集,分别由 Penn Treebank 和 AnnotatedEnglish Gigaword 生成,而且也专为这项任务设计了一种新的注意力机制。作者们设计的注意力机制无需额外的可训练网络参数就可以增强基准 RNN 模型的表现,这最小化了这一注意力机制带来的额外计算开销。作者们在文中表明,他们的模型相比多个基准模型都有统计显著的更高表现,其中包括基于 LSTM 的语言模型。

  • 论文地址:

    https://www.cs.mcgill.ca/~jkabba/acl2018paper.pdf

  • 这篇论文来自加拿大麦克吉尔大学(McGill University)与蒙特利尔算法学习人工智能实验室(MILA)

4、'Lighter' Can Still Be Dark: Modeling Comparative Color Descriptions

  • “打火机”也可能是黑暗的:建模比较性的颜色描述

  • (论文内容尚未公开)

  • 这篇论文来自哥伦比亚大学

详细信息欢迎访问 SQuAD 网站(Stanford-qa.com)以及阅读论文(https://arxiv.org/abs/1806.03822)。AI 科技评论报道。

GAIR 大会在即,

AI 科技评论送福利了!

福利一

我们将会为高校学生提供若干张免费门票,只需填写「阅读原文」链接提交表单,就有机会获得价值 3999 元的CCF-GAIR 2018大会门票一张。

福利二

我们将从提交的所有学生申请内,筛选 20 位国内顶尖优秀学术青年,承包国内往返机票+四晚住宿!更有机会与CCF-GAIR 2018与会嘉宾共进小型内部聚餐,给你一个与大牛面对面交流的机会!

(PS:请在表单内填写准确的微信号,审核通过后工作人员将通过微信与您取得联系,发放门票)

赠票须知 

➤ 如无特别说明,赠送门票不包含餐饮,住宿等服务;

➤ 活动解释权归雷锋网AI 科技评论所有

➤ 截止日期:6月14日晚24:00

6 月 29 日至 7 月 1 日,深圳见!

登录查看更多
1

相关内容

包括微软、CMU、Stanford在内的顶级人工智能专家和学者们正在研究更复杂的任务:让机器像人类一样阅读文本,进而根据对该文本的理解来回答问题。这种阅读理解就像是让计算机来做我们高考英语的阅读理解题。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
ACL2020接受论文列表公布,571篇长文208篇短文
专知会员服务
66+阅读 · 2020年5月19日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
BERT进展2019四篇必读论文
专知会员服务
67+阅读 · 2020年1月2日
阅读+验证:面向无答案问题的机器阅读理解【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2019年1月17日
SQuAD文本理解挑战赛十大模型解读
黑龙江大学自然语言处理实验室
7+阅读 · 2018年1月17日
Arxiv
101+阅读 · 2020年3月4日
Question Generation by Transformers
Arxiv
5+阅读 · 2019年9月14日
Arxiv
8+阅读 · 2019年3月21日
The Matrix Calculus You Need For Deep Learning
Arxiv
12+阅读 · 2018年7月2日
Arxiv
4+阅读 · 2018年5月14日
VIP会员
Top
微信扫码咨询专知VIP会员