腾讯提出NumNet+模型,超越谷歌登DROP排行榜第一名 | 微信AI专访

2019 年 10 月 17 日 新智元


AI WORLD 2019世界人工智能峰会明日开幕!

【倒计时1天】10月18日,2019中关村论坛平行论坛——AI WORLD 2019世界人工智能峰会将在北京启幕。峰会由海淀区政府、中关村科学城管委会主办,新智元、海淀园管委会、智源研究院承办。新智元杨静、科大讯飞胡郁、微软王永东、华为王成录、英特尔宋继强、旷视及智源学者孙剑、滴滴叶杰平、AWS张峥、依图颜水成、地平线黄畅、autowise.ai黄超等重磅嘉宾中关村论剑,重启充满创新活力的AI未来。新智元还将现场揭晓AI Era创新大奖,并重磅发布AI开放创新平台和献礼新书《智周万物:人工智能改变中国》峰会多平台同步直播,敬请期待!直播链接:


【腾讯科技】

客户端:https://view.inews.qq.com/a/TEC2019101600718500    

PC端:http://v.qq.com/live/p/topic/74606/preview.html

【海淀融媒】

上午场:m.365yg.com/i6748195040323062540/      

下午场:m.365yg.com/i6748216659368184584/

【新浪科技】

http://video.sina.com.cn/l/p/1728577.html




  新智元报道  

编辑:小芹
【新智元导读】最近,在专门考验计算机数学推理能力的 DROP 数据集上,微信 AI 团队所研究的机器阅读理解技术超越了谷歌,占据排行榜第一名,F1 达 80% 以上。这项技术突破点在哪里,快新智元 AI 朋友圈与AI大咖一起参与讨论吧~


程序员圈有一个流行的段子:
如何证明一个人不是真正的程序员?


你找个有西瓜和西红柿的菜市场,告诉他,去买一个西瓜,如果看见西红柿,就买两个
要是买回来一个西瓜和两个西红柿,他就不是真正的程序员
真正的程序员会买回来两个西瓜



这只是个段子,自嘲 + 博君一笑罢了~不过,即使是这种需要逻辑推理、数学运算的阅读理解,AI 也已经能够掌握。


最近,在专门考验计算机数学推理能力的 DROP 数据集上,微信 AI 团队所研究的机器阅读理解技术超越了 Google Research 占据排行榜第一名,F1 达 80% 以上。这项技术可以帮助人工智能提升阅读理解能力和逻辑推理能力。

该研究由微信AI团队Ronqin Yang, Qiu Ran, Yankai Lin, Peng Li和Jie Zhou完成。




https://leaderboard.allenai.org/drop/submissions/public


过去,如果你对机器说,请帮忙点 10 个蛋挞,它就可以给你 10 个蛋挞,但是如果你对它说,请给我们 5 个一人两个蛋挞,机器就很难理解你的意思。微信 AI 的这项能力致力于完善机器的阅读理解能力,让机器有更强的逻辑推理能力。今后,如果你跟机器说,请给我们 5 个一人两个蛋挞,甚至更加复杂的指令,它都可以准确无误地完成。


该模型名为 NumNet+ ,是在 NumNet 模型的基础上改进而来。在专用于测试段落综合理解的 QA 数据集 DROP 上,NumNet+ 获得了单模型 F1 值 82.99% 的效果。
项目已经开源:
https://github.com/llamazing/numnet_plus


微信 AI 团队表示,目前,该技术还没有在业务上落地,未来将会用于完善腾讯小微智能对话助手。


接下来,本文将具体阐述 NumNet+ 模型的架构细节,以及新智元对微信 AI 团队的专访。


NumNet+:基于数字感知的图神经网络


在多数已往的机器阅读理解模型中,数字与非数字单词被同等对待,如此便无法获知数字的大小关系,也不能完成诸如计数、加减法等数学运算。


为了解决这个问题,微信AI团队提出一种 数字感知的图神经网络(numerically-aware graph neural network,NumGNN) 。一方面,方案利用图的拓扑结构编码数字间的大小关系,具体的,方案将文章和问题中的数字作为图结点,在具有 “>” 和 “<=” 关系的数字间建立有向边,从而将数字的大小关系作为先验知识注入模型;另一方面,方案使用图卷积神经网络在前述图结构上执行推理,从而支持更复杂的数学推理功能。

NumNet 模型的框架


该模型由编码模块、推理模块和预测模块组成。数字之间的数学关系用图的拓扑结构来编码。例如,从 “6” 指向 “5” 的边表示 “6” 大于 “5”。推理模块利用数字感知的图神经网络对图进行数字推理。由于模型中明确地建模了数值比较,因此该模型对于回答需要数值推理的问题,如加法、计数或数字排序,更为有效。


NumNet+ 以发表在 EMNLP 2019 的 NumNet 模型 NumGNN 作为核心,NumNet模型结合 NAQANet 基础模块以及改进的前处理方法,在不使用 BERT、RoBERTa 等预训练模型的条件下,便获得了高达 67.97% 的 F1 值;进一步的,在 NumNet+ 模型中,我们融入了 RoBERTa 的能力以及对多 span 型问题的支持,最终获得了单模型 F1 值 82.99% 的效果。


DROP 数据集由 AI2 实验室提出,是一个类似于 SQuAD 的阅读理解 QA 数据集,但 SQuAD 很少涉及数学运算的问题,而 DROP 数据集专为考察模型去做涉及到数学运算问题的处理能力而设计。

来自 DROP 数据集示例问题,涉及到数值比较。段落中突出的相关部分可用来推断答案。


除了最核心的 NumGNN 模块外,NumNet+ 还结合了预训练模型 RoBERTa


具体来说,问题和文本进入模型后需要先进行 encoding,NumNet+ 中用预训练模型替换了 NumNet 中的未经过预训练的 Transformer 作为 encoder。



从去年 10 月份到现在大家反复在证明的一件事情,即这种大规模的预训练模型是有能力从大规模的文本里面学到一定的语义和语法相关的知识的。同样的,通过把没有经过预训练的 encoder 换成经过预训练的 encoder,相当于它额外的以隐式方式注入了额外信息。所以,通过替换以后可以明显的进一步提升,这是它的主要好处。


微信团队表示,这项研究最困难的阶段是对问题的定义和抽象的阶段,他们花了很长时间根据数据集所定义的问题提出假设,又花了很长时间通过各种推算方式验证这些假设是不是对的。中间还花了大量的精力做数据的预处理和提升,因为提前做了很多分析、假设和验证的工作,最后在模型最终验证阶段还比较顺利。


而对于数字离散推理,当前充分显示出来很强的文本理解能力的模型一般都是基于神经网络的,但神经网络很不擅长处理离散符号相关的问题。传统的方法相对来讲处理会更容易一些,但对于文本,特别是复杂文本的理解上就比较欠缺。最大的挑战在于如何把这两方面能力更好地结合起来。


下面是新智元对微信 AI 团队的采访:


专访微信AI:机器阅读理解今年最大突破是预训练模型

新智元:在 SQuAD 数据集上,谷歌的 ALBERT 等模型已经超越了人类的表现,但在 DROP 排行榜看来,AI 距离人类的水平 (F1 96.42%) 似乎还很远,是否 DROP 的阅读理解任务更难?体现在哪些方面?


微信 AI 团队: 这个难度是相对的。SQuAD 之所以现在解决得比较好,一方面是各种各样的预训练模型的使用,另一方面是大家对于 SQuAD 所定义出来的阅读理解在子集上,已经研究很久了,所以现在有一套比较成熟的方法能把它做得比较好。但是 SQuAD 数据集和 DROP 数据集相比,里面涉及到需要去运算和比较的这类问题数量是非常少的,所以之前的模型即使在这方面的能力有欠缺,在上面也体现不出来。DROP 和 SQuAD 相比,它是集中的去测试模型在涉及到数学运算方面的能力。之前的模型由于都没有去刻意关注这方面的问题,所以自然而然 DROP 的结果相对来讲就要更差一些。现在的客观情况就是因为这个原因导致的。


从学术发展现状来看,现在神经网络模型比较擅长做分类、模式识别等等相关工作,一旦涉及到数学运算,就会涉及到具体符号的操作。这种操作虽然之前也有一些工作在关心这个问题,但是因为用神经网络建模这类问题相对来讲还是比较难,现在大家还没有特别公认的非常成熟的建模手段。所以现在还在探索阶段,就没有之前 SQuAD 上面定义的那类问题那样有相对成熟的解法了。


新智元:DROP 挑战赛的规则可以介绍一下吗?


微信 AI 团队: 它和 SQuAD 类似,大家可以看到它的训练集、开发集。模型训练好了之后,把模型按照要求的格式做成一个 docker 放到网站上,网站会调用它取结果。对于榜单上公开的结果,要求是每周最多只能公开一个结果,这个机制是为了防止大家为了刷榜而频繁的提交结果,也是一个保护措施吧。


新智元:这项研究在产品落地上将会有什么用途呢?


微信 AI 团队: 在当前阶段还没有把它做在某个产品上,最主要原因它现在还没有完全达到特别成熟的程度。但是这个技术稍微往下再走一步,其实在很多地方都可以用的。比如像我们中心主要的产品是对话系统,像现在对话系统大家用的时候会发现很多方面比较傻,另外有一些稍微复杂一点的,涉及到数字的需求可能都没法满足。比如一开始举的例子,一共 5 个人,每个人想要 2 个蛋挞,你给我拿过来。那你现在不直接告诉它要 10 个蛋挞,它是不知道的。这个技术发展得再成熟一点,这方面的能力是具备的。


除了对话系统,其他的应用比如说,阅读企业年报,比赛结果的报道,像我们这个技术可以帮助人们自动从文本当中获取相关的数字方面的信息,而且不只是文章里面直接说到的事情,而是可以更进一步的对这篇文章当中提到的信息进一步推理出更复杂的信息出来,然后给大家来用。相关的技术在未来还有很多非常好的应用场景。


新智元:您认为当前机器阅读理解发展到了什么程度?今年这一领域有什么重大突破呢?


微信 AI 团队: 像我刚才举的例子 “刘德华老婆是谁?”,这种相对比较简单的,在文本当中能够直接找到答案的这类问题,或者通过稍复杂一点的字面匹配就能够把问题答案定位出来,现在来看大家提出的模型对这些问题解决得还是不错的。最近一两年大家比较关心的问题,SQuAD 是预先给定问题一段文本,并且答案一定会在这段文本里面出现。OpenQA 相对来说会把它拓宽一些,需要系统到库里面找材料,然后回答问题,这个显然比 SQuAD 的定义会更难一些。现在这一块大家也做了很多工作,但是普遍来看对于自动检索文本这一块做得还不是特别成熟,所以 OpenQA 的效果会比 SQuAD 差一些。这是一个分支。


第二,大家关心各种各样的推理问题。典型的两类,一类是正在研究的涉及到数学运算,或者涉及到直接操作符号相关的推理;另类是大家研究比较多的推理分支,是要回答这个问题一定要结合多条文本做多步推理,综合起来看才能拿到答案。这是第二种相对比较复杂的推理类型。


第三,像我们人回答问题的时候,我们基于生活会得到很多的背景知识,或者关于这个世界的常识。比如说,我们会知道金属是会导电的,读文章的时候,文章内容里面即使没有明确告诉我们金属会导电,我们也知道不能拿钥匙捅电门,因为会触电。但是对于机器来讲,如果这些知识没有明确告诉它,那么它肯定是不知道的。如何表达关于世界的常识在模型当中使用,这也是大家最近一年来关注的方向。


这些是基于阅读理解下一步会去关注的问题。


至于这一年来最大的突破是什么?最近这一年来大家反反复复都在证明一件事情,预训练模型对于很多自然语言处理任务、包括阅读理解上,会带来非常大的提升。预训练模型,通过在大规模文本上的合适训练,是可以学到很多隐性的知识。预训练模型的提出,使得用一个很简单的方法都可以超过前两年大家花很多时间和精力研究各种复杂的阅读理解模型。这是大家一年来在机器阅读上最大的改变。


新智元:请您展望一下机器阅读理解的发展趋势,您预测还有多少年 AI 可以达到人类的阅读理解水平,甚至超越人类?


微信 AI 团队: 展望发展趋势,下一步大家会重点关注的是:第一,Open QA;第二,推理相关的问题,离散推理也好、或者多步推理也好,这方面肯定是大家需要重点关注的。第三,如何在机器阅读的模型里面去使用常识,这是下一步大家会关注得比较多,同时也是非常有应用价值的研究方向。


至于机器阅读什么时候超越人类?这是非常难预测的,我只能说在特定条件下的阅读理解相关问题,机器是有可能会在很短时间之内,甚至有些当前就已经能够超越人类,或者至少普通人类的结果。如果想在不加任何限制条件下机器阅读超越人类,这个时间会挺长的,可能是几年或是几十年。


大家有没有关注到 RACE 数据集,有学者把中考和高考英语考试选择型阅读理解题目都收集起来做成数据集,我们在年初的时候首次基于预训练模型实现在高中题目上用机器超越了众包人类做出来的效果。截至目前为止,不管初中题目也好,还是高中题目也好,基于预训练模型再加一些改造,目前已经全面超越了人类的水平。这也是印证了我刚才说的意思,如果在一个限定条件下阅读理解的问题,那么可能机器就能够在短期的将来就有可能超过,但是全面超越这件事目前说不好。

DROP排行榜:
https://leaderboard.allenai.org/drop/submissions/public
GitHub:
https://github.com/llamazing/numnet_plus


登录查看更多
0

相关内容

【ICML2020】小样本目标检测
专知会员服务
91+阅读 · 2020年6月2日
【快讯】KDD2020论文出炉,216篇上榜, 你的paper中了吗?
专知会员服务
51+阅读 · 2020年5月16日
超过Google,微信AI在NLP领域又获一项世界第一
量子位
6+阅读 · 2019年10月19日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
GLUE排行榜上全面超越BERT的模型近日公布了!
机器之心
9+阅读 · 2019年2月13日
BERT霸榜问答任务,谷歌新基准模型缩小AI与人类差距50%
未来产业促进会
4+阅读 · 2019年1月31日
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
21+阅读 · 2019年3月25日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年6月1日
VIP会员
相关论文
Self-Attention Graph Pooling
Arxiv
13+阅读 · 2019年6月13日
Arxiv
21+阅读 · 2019年3月25日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
QuAC : Question Answering in Context
Arxiv
4+阅读 · 2018年8月21日
Arxiv
3+阅读 · 2018年6月1日
Top
微信扫码咨询专知VIP会员