AI做八年级试卷得90多分,艾伦研究所问答系统已达中学水平

2019 年 9 月 6 日 机器之心

机器之心报道

参与:杜伟、一鸣

自 2014 年成立以来,艾伦人工智能研究所(AI2)就致力于研究和设计人工智能,并通过构建人工智能系统与推理、学习和阅读能力实现科学突破。 研究人员在该所成立后不久即开始研发 Aristo 系统。 现在,该系统已经能够阅读、理解初中八年级科学文本并通过初高中水平生物测试题了。


当地时间周三,西雅图艾伦人工智能研究所正式推出新 AI 系统 Aristo,该系统在八年级的科学测试中答对了 90%以上的问题,并在十二年级的测试中答对了 80%以上的问题。


论文链接:https://arxiv.org/pdf/1909.01958.pdf


此外,据纽约时报报道,该系统有可能理解人类语言,模拟人类思维和决策制定行为。


那么,Aristo 系统在测试中能够答对哪些类型的问题呢?


Aristo: 可回答美国八年级测试单选题


Aristo 只用于单项选择题测试。 该系统参加了适用于纽约学生的标准化考试,但是艾伦研究所删除了所有包含图片和图表的问题,因为回答这类带图表的问题需要具备将语言理解和逻辑与计算机视觉知识结合起来的额外技能。


如下所示,这是一道属于八年级的生物单选题,只需要简单的信息提取即可答对。


问题 1: 一组共同发挥作用以执行特定功能的组织被称为:


(a)器官
(b)有机体
(c)系统
(d)细胞


不仅如此,下面一道同属于八年级的单选题考察了一定的逻辑能力,Aristo 系统也能够顺利作答。


问题 2: 以下哪种变化最有可能导致某一地区松鼠数量的减少?


(a)捕食者数量的减少
(b)松鼠族群间竞争的减少
(c)可获得食物的增多
(d)森林火灾的增多


如以上问题 2 所示,科学测试并不是简单的学习规则即可以顺利通过的,还需要利用逻辑进行关联性思考。 比如,森林火灾的增多可能会烧死松鼠或者减少松鼠生存和繁殖所需的食物链,从而减少松鼠数量。


此外,如上图所示的 4 道选择题出自纽约州高中会考(NY Regents Exam),这类单选题需要常识和科学知识才有可能回答。


因此,由以上问题示例可知,Aristo 系统不仅具备了信息提取能力,还能够借助简单的逻辑思维回答一些稍复杂的问题。


Aristo 系统是怎样建立的?


Aristo 系统主要是基于预训练语言模型 BERT 构建的。 研究人员向 BERT 输入了大量的问题和对应的答案,使得 BERT 能够进行学习。 Aristo 的具体架构如下:


系统架构


系统一开始是由八个子模块组成的,基本上可以分成三类:


  • 统计和信息提取

  • 推理

  • 大规模语言模型


Aristo 系统的一个模块进行知识推理时的方法。


随着项目的进行,研究人员逐渐将研究精力投入语言模型模块的构建上,但是在系统最终集成时,他们会将八个模块集成为一个系统,使用集成模型进行推断。


在语言模型模块方面,研究人员主要使用了 BERT 作为语言模型。 在此,BERT 将单选题视为一个分类任务。 首先,研究人员将背景知识和对应的问题利用信息搜索的方法提取出来,并让 BERT 学习每个问题对应的知识。 之后,研究人员使用几个数据集中的教学大纲微调模型,包括了一些不属于科学知识领域的内容。 最终,研究人员将不同变体的 BERT 模型集成在一起。 具体流程如下:


  1. 模型首先学习基本的背景知识。研究人员提取最多 10 个句子作为某个背景知识的代表,根据 BERT 调整了句子最大长度。

  2. 研究人员用中学的教学大纲微调模型。研究人员在 RACE 训练集上进行了模型微调,这是一个英语阅读理解单选测试题,用于中国中学教学中。

  3. 进一步的,研究人员使用了多个科学领域的单选题数据集进行微调,包括纽约中学会考题等。

  4. 研究人员在发展集上进行最终的微调,并根据原始的 BERT 论文进行了超参数搜索。

  5. 研究人员在 BERT-base、BERT-large-uncased、BERT-large-cased 和全词 mask 的 BERT-large-cased 四种模型上进行了如上操作,并最终将这些模型集成起来。当然,他们也尝试了 RoBERTa 模型。


一些中学会考题样本,包括食物链、图片、表格、图表、循环图、地图、流程图等方面的题目。


实验结果
表 3:使用的数据集大小

表 2: Aristo 集成的模型与其他方法的对比。 在八年级测试集上,取得了 91.6% 的高分。


AI 发展的里程碑


AI 能回答八年级学生的问题,这有什么厉害的?


据纽约时报报道称,虽然这并不意味着人类已经实现、或者接近实现真正的智能,但 Aristo 依然是一个 AI 发展的里程碑,在商业领域可以启发很多相关的机器问答产品和应用,包括更精准的搜索引擎,或者医院的病历管理系统。


「这会带来很大的商业成果,」前华盛顿大学教授,负责管理艾伦人工智能研究所工作的 Oren Etzioni 说,「我可以很肯定地说,很快就可以看到一批新的科技产品、创业公司和相关大公司下属的分公司(在从事问答方面的研究)了。

艾伦人工智能研究所 CEO Oren Etzioni

参考链接:
https://www.nytimes.com/2019/09/04/technology/artificial-intelligence-aristo-passed-test.html

文为机器之心报道,转载请联系本公众号获得授权
✄------------------------------------------------
加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com
投稿或寻求报道:content@jiqizhixin.com
广告 & 商务合作:bd@jiqizhixin.com
登录查看更多
1

相关内容

AI2成立于2014年,其使命是为公益事业开展高影响力人工智能研究和工程。AI2是微软联合创始人保罗•艾伦(Paul Allen)创建的,由领先的人工智能研究人员奥伦•埃齐奥尼(Oren Etzioni)博士领导。AI2坐落于联合湖畔,在人工智能领域拥有超过100名全球最优秀的科学和工程人才,吸引了来自全球不同兴趣和背景的个人。AI2以其团队的多样性和协作性而自豪,并采用面向结果的方法来应对AI中的复杂挑战。
最新《可解释深度学习XDL》2020研究进展综述大全,54页pdf
【ACL2020-伯克利】预训练Transformer提高分布外鲁棒性
专知会员服务
19+阅读 · 2020年4月14日
【斯坦福新课】CS234:强化学习,附课程PPT下载
专知会员服务
119+阅读 · 2020年1月15日
微软机器阅读理解在一场多轮对话挑战中媲美人类
微软丹棱街5号
19+阅读 · 2019年5月14日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
媲美人类对话水平!微软最新NLP模型3项评分全面超越人类水平!
机器学习算法与Python学习
8+阅读 · 2019年5月4日
论文Express | 斯坦福新成果:X光诊断报告自动生成
大数据文摘
5+阅读 · 2018年9月30日
Arxiv
14+阅读 · 2020年1月27日
Arxiv
8+阅读 · 2019年3月21日
Arxiv
4+阅读 · 2018年10月5日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
Top
微信扫码咨询专知VIP会员