“亚里士多德”通过初二科学考试！首个BERT模型AI完成了微软联合创始人这个遗愿

会员服务 ·

“亚里士多德”通过初二科学考试！首个BERT模型AI完成了微软联合创始人这个遗愿

2019 年 9 月 18 日 新智元

新智元推荐

转自：大数据文摘|BigDataDigest 作者：文摘菌

编译：啤酒泡泡、橡树_Hiangsug

整理编辑：张佳

【新智元导读】微软的联合创始人Paul Allen创立了艾伦研究所，想创造出一个能够通过8年级科学测试的AI，然而，壮志未酬的Allen去年10月不幸逝世，未能看见今年研究所的研究人员实现了他的愿望——一个基于Bert的AI系统能够通过8年级科学测试，准确率近90%。

一只名叫亚里士多德的人工智能刚刚通过了美国八年级的科学测试，上周，这条新闻占据了美国多家新闻网站的首版。

美国八年级大概相当于国内初二，初二小朋友的科学测验有多难呢？

要回答这个问题，我们先来一起看两道美国八年级的科学测试多选题。

1、人体中能够协同完成某一项具体机能的组织被称为：

A.an organ

B.an organism

C.a system

D.a cell

2、以下哪一种变化最有可能导致某一区域的松鼠数量减少？

A.捕食者的数量减少

B.松鼠内部的竞争减少

C.可获取的食物减少

D.森林火灾数量的增加

很显然，这两道题分属两类不同类型。第一题属于知识点题，只要认真背过就能答得上来；第二道则属于逻辑推理题。

多数小朋友可能更愿意回答第二题这种逻辑推断的题目，但对于人工智能来说，情况可能恰恰相反。

人工智能做八年级卷子，选择题正确率超90%

上周三，坐落于西雅图的著名实验室“艾伦人工智能研究所”全新发布了一款名为“亚里士多德（Aristo）“的人工智能系统，它正确地回答了超过90%的八年级的科学测验题，并在十二年级的考试中获得了80%以上的准确率。

这款能够通过测试能力的人工智能表明，研究人员在几个月中便取得了巨大的进展，人工智能系统可以理解语言并能模拟人类的决策逻辑。

Aristo的设定是只用来作答多项选择题。它参加了几场纽约考生的标准考试，只不过艾伦研究所去除了那些包含图片和图表的题目，回答这些问题需要额外的技能——将语言理解和计算机视觉逻辑相结合的能力。

有些测试问题只需要一些信息提取的能力，比如上文中的第一题，这种题目是人工智能擅长的。

然而科学测试不是那种只靠记住规则就能完成的事情，它需要使用逻辑来建立联系。比如第二题，森林火灾数量的增加会直接导致松鼠的死亡，或食物来源的减少使它们无法繁衍。人工智能需要理解这样的逻辑，才能回答正确这道题目。

其实在Aristo成功之前，AI已经挂过无数次科。

2016年，700多名计算机科学家参加了一场设有80,000美金（折合人民币约57万元）的挑战赛，题目是“八年级科学测验”——不过答题人不是这些科学家，而是他们建立的人工智能系统。

结果出乎意料，考生全盘“挂科”，就连最成熟的人工智能系统都无法答对超60%的题目，其语言水平和逻辑水平远远赶不上八年级的学生。

学霸Aristo的背后是Bert

2016年，当AlphaGo击败人类职业围棋选手李世石后，许多人认为人工智能的转折点来临。

然而，华盛顿大学前教授、现任艾伦人工智能研究所的技术总监的Oren Etzioni博士的兴奋之情很快平息了。他说，人工智能并没有它看上去那么先进。他提到了艾伦研究所之前参加的那场比赛，一个八年级的科学测试就难住了人工智能系统。

艾伦研究所迅速改良了之前的工作，着手于打造Aristo，其速度超出了包括Etzioni博士在内的许多专家的预期。

Aristo的应试能力来自于神经网络，近几年以来，世界顶尖的人工智能实验室，如Google，Facebook等企业的实验室都利用神经网络进行自然语言处理（NLP），它可以通过分析人类的文章和书籍来习得语言的复杂变化。

去年年底，谷歌AI团队发布了BERT模型，在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出最佳成绩，包括将GLUE基准推至80.4％，MultiNLI准确度达到86.7%等。

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder，模型的主要创新点在于模型的预训练，用Masked LM和Next Sentence Prediction两种方法分别捕捉语句的表述。

Bert模型架构

Etzioni博士很快就意识到，可以在Bert基础之上建立Aristo系统，他们利用Bert模型对覆盖面极广的问题和答案数据进行训练。

Aristo根据题目的不同类型采用了八种类型的agent来回答问题——包括数据库中查找答案的agent、检查相关概念列表的agent、执行定性推理的agent等。

每个agent都会对多项选择答案产生正确与否的概率，而Aristo会对不同的选项的概率进行加权以选择最可能的一项或多项，该模型通过多轮训练和校准进行优化。

例如，有一个问题是：当块体熔化时，铁块中的铁原子是如何受到影响的？

A.铁原子增加质量。

B.铁原子含有较少的能量。

C.铁原子移动得更频繁。

D.铁原子体积增加。

为了回答这个问题，Aristo先查找出“铁原子随着热量增加而运动加快”的知识，将术语“融化”与“热量”联系起来，将术语“快”与“频繁”联系起来，并将C评定为正确选择。

结合不同的解决问题的方法为Aristo将测试分数从2016年的大约60％提高到今年的91.6％扫清了道路。在12年级考试中，该模型得分率为83.5％。

Aristo不断提升的答题准确率

究竟是学霸还是学渣？能用就好！

部分科学家对Aristo取得的进展并没有抱以太大热情，他们认为机器离完全掌握自然语言还有很长一段路要走，更不用说真正像一个人类学生那样思考了。

“我们不能拿这项技术和真正的学生以及他们的逻辑推理能力相比。”已在微软参与多项类似技术研发的研究员Jingjing Liu讲道。

Liu和她的微软同事曾尝试建立一个可以通过GRE考试的系统——GRE是美国研究生入学的必考测试。

Liu表示，处理语言部分是可行的，但是建立可用于处理数学问题的逻辑推理能力就是另外一回事了。“这实在是一项太有挑战性的工作了。”

但从商业角度来看，从互联网搜索引擎到医院的文档记录系统，Aristo的这一进展将对很多产品和服务产生广泛影响。

根据纽约时报的报道，Etzioni博士表示：“这项技术会带来重要的商业成果。目前我能自信的说，你们将会看到这一进展带来的新一代产品，可能来自创业公司，也可能来自大公司。”

“这项技术仍处于初级阶段，”Fast.ai的技术总监Jeremy Howard说道，“但是其技术的潜能是无限的，我们离充分发掘这项技术的潜能还很遥远。”

Aristo也是艾伦研究所创始人的遗愿

艾伦研究所命名自微软的联合创始人保罗·艾伦(Paul Allen)，他在2013年成立了艾伦人工智能研究所，希望能够着手解决人工智能发展的重大问题。

把“八年级科学测验”作为题目的人工智能科学挑战赛，其实源自于这位西雅图亿万富翁的一个私心：他希望研究人员设计出一个足够聪明、能够通过八年级科学考试的人工智能程序。

自创立后，艾伦研究所的研究人员便一直致力于建造这只聪明的人工智能程序——Aristo。

这不是一件容易的事，五年来研究者们尝试了无数次，但是一直没有达到艾伦希望的效果。

然而去年10月份，还没有来得及见证Aristo的诞生，享年65岁的艾伦去世了。

在不同的电子邮件中，Aristo的作者Etzioni和Clark都对保罗·艾伦表示了敬意。当被问到这样的系统艾伦是否就可以满意的时候，两人都表示：“不会。”

Etzioni和Clark在艾伦人工智能研究所

“保罗会非常高兴，但不会让我们满足于现有的荣誉，”Etzioni说， “他会问:NLP的下一个重要阶段是什么?”

“我可以想象他会说‘恭喜你！但下一步是什么?”

相关内容

BERT

关注 101

BERT全称Bidirectional Encoder Representations from Transformers，是预训练语言表示的方法，可以在大型文本语料库（如维基百科）上训练通用的“语言理解”模型，然后将该模型用于下游NLP任务，比如机器翻译、问答。

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

【SIGIR2020-斯坦福大学】一种新的又好又快的BERT类信息检索模型-ColBERT

专知会员服务

44+阅读 · 2020年4月28日

【哈佛《CS50 Python人工智能入门》课程 (2020)】

专知会员服务

115+阅读 · 2020年4月12日

CMU-卡内基梅隆大学2020《神经网络自然语言处理》课程课件全集，不可错过！

专知会员服务

68+阅读 · 2020年3月20日

第八届中国科技大学《计算机图形学》暑期课程课件

专知会员服务

62+阅读 · 2020年3月4日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

Google AI发布Meena-构建一个无所不聊的含26亿参数模型的聊天机器人

专知会员服务

54+阅读 · 2020年1月29日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日

人工智能学习笔记，247页pdf

专知会员服务

186+阅读 · 2019年12月14日

【机器学习课程】Google机器学习速成课程

专知会员服务

169+阅读 · 2019年12月2日

把BERT拉下神坛！ACL论文只靠一个“Not”，就把AI阅读理解骤降到盲猜水平

量子位

4+阅读 · 2019年7月22日

动态 | 微软刷新CoQA对话问答挑战赛纪录，模型性能达到人类同等水平

AI研习社

4+阅读 · 2019年5月8日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

媲美人类对话水平！微软最新NLP模型3项评分全面超越人类水平！

机器学习算法与Python学习

8+阅读 · 2019年5月4日

再破新纪录！微软最新NLP模型3项评分全面超越人类水平！

新智元

8+阅读 · 2019年5月4日

哈工大讯飞联合实验室在机器阅读理解评测SQuAD 2.0中荣登榜首

哈工大SCIR

5+阅读 · 2018年11月22日

谷歌BERT模型深度解析

AINLP

42+阅读 · 2018年11月15日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

揭秘|AI在斯坦福阅读测试中胜过人类，但TA真的看懂了吗

机器人大讲堂

3+阅读 · 2018年1月25日

量子世界的因果关系

中国物理学会期刊网

8+阅读 · 2017年8月5日

Generating Rationales in Visual Question Answering

Arxiv

5+阅读 · 2020年4月4日

A Study of the Tasks and Models in Machine Reading Comprehension

Arxiv

8+阅读 · 2020年1月23日

Visualizing and Measuring the Geometry of BERT

Arxiv

7+阅读 · 2019年10月28日

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

Revealing the Dark Secrets of BERT

Arxiv

4+阅读 · 2019年9月11日

Semantics-aware BERT for Language Understanding

Arxiv

4+阅读 · 2019年9月5日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

16+阅读 · 2019年5月24日

Improving Question Answering by Commonsense-Based Pre-Training

Arxiv

5+阅读 · 2018年10月5日

Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering

Arxiv

4+阅读 · 2018年4月3日

Visual Question Reasoning on General Dependency Tree

Arxiv

6+阅读 · 2018年3月31日

VIP会员