论文浅尝 | AI回答小学科学问题达到人类水平(OpenBookQA)

2022 年 5 月 5 日 开放知识图谱

转载公众号 | 南大Websoft 



AI能否像人类一样学习掌握科学知识,理解运用常识知识,最终像人类一样参加并通过学科考试?近日,南京大学万维网软件研究组(Websoft)在人工智能评测集OpenBookQA上实现了突破,研发的GenMC模型取得了92%的正确率,首次达到了人类水平。

       OpenBookQA是美国艾伦人工智能研究院(Allen Institute for AI)发布的问答技术评测集,由小学科学选择题组成,并提供了与之相关的核心科学事实作为课本。该评测集的目的是通过选择题考试,探究AI学习课本知识,以及在新的场景下利用知识的能力。除了课本知识以外,回答OpenBookQA中的问题还需要具备广泛的常识,这对AI带来了比较大的挑战。

OpenBookQA近年来吸引了包括谷歌、斯坦福等国际顶尖研究机构参与。在目前的排行榜上,由南京大学团队提出的GenMC模型以较显著的优势取得领先,其集成版本更是首次达到了人类在该评测集上的水平。


OpenBookQA等选择题问答任务中,以往研究可分为两类范式——Text-to-Text范式Encoder-Only范式。其中,以T5UnifiedQA为代表的Text-to-Text范式基于encoder-decoder模型,它将问题和所有选项拼接作为输入,以正确选项文本作为生成目标。这类模型的优势是将不同格式的自然语言处理任务都统一构建为文本到文本(Text-to-Text格式进行联合训练有利于学习到更多知识。但对于选择题这种分类任务,encoder-decoder模型所学习的生成目标仅是对于输入的拷贝,这导致预训练模型的自然语言生成能力未被充分利用。而以BERTRoBERTa为代表的Encoder-Only范式则不考虑decoder部分的使用,将问题与每个选项拼接并独立输入encoder,仅依赖于encoder的自然语言理解能力学习和预测。

这两种范式均无法充分挖掘预训练模型decoder中蕴含的丰富知识,对于选择题这种分类任务,如何更自然地用好encoder-decoder模型是一项技术挑战。为此,南京大学团队提出了一种生成增强的选择题问答模型GenMC,更好地结合了encoder的自然语言理解与decoder的自然语言生成能力,在OpenBookQA等选择题问答任务上取得了不错的效果。

GenMC受人类答题行为的启发而设计——先阅读题干,从自己脑海的背景知识中联想可能的解题线索,再带着线索理解和对比选项得出答案。例如问题生产笔记本的公司所需的主要原料是什么?,在选出正确答案之前,GenMC能够通过题干生成常识线索,作为关联题干中的笔记本和正确答案的中间概念,从而帮助模型更好理解题目并作答。具体模型设计上,GenMC线索生成器增强阅读器两部分组成。模型结构如下图所示:

1、线索生成器模块以问题Q作为输入,得到线索的表示HQC。该模块使用完整的encoder-decoder模型对问题Q编码,取encoder最后一层作为问题的表示HQ,并以自回归的方式由decoder生成线索并取其稠密表示HC。为了增强对线索的理解与表示,使用TransformerHQHC做交互,得到最终的线索表示HQC

2、增强阅读器模块以问题Q和第i个选项Oi作为输入(在开卷设置中,检索文本也作为输入),对选项Oi用线索增强理解后,选择出正确答案。该模块仅用共享参数的encoder部分对问题Q和选项Oi编码,取encoder最后一层输出得到选项的上下文表示HiQO。接着采用dual-attentionHQCHiQO做信息融合,并经PoolingMLP层得到选项Oi的得分。得分最高的选项被选为答案。

3、训练目标由生成器loss和阅读器loss两部分相加而成。其中,生成器loss以正确答案的文本作为目标,以teacher forcing的方式训练;阅读器loss则通过交叉熵极大化正确选项的概率。

GenMC基于四种不同的基础模型在五个数据集上进行了实验,其答题正确率均显著超越了相同配置的Text-to-Text基线模型。

这项研究成果已被自然语言处理领域的重要国际会议NAACL 2022录用,更多细节可查阅论文及获取源代码:

 

论文标题:Clues Before Answers: Generation-Enhanced Multiple-Choice QA

论文链接:https://arxiv.org/pdf/2205.00274.pdf

源码链接:https://github.com/nju-websoft/GenMC

        


 

OpenKG


OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

登录查看更多
2

相关内容

专知会员服务
25+阅读 · 2021年6月25日
专知会员服务
54+阅读 · 2021年2月2日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019
专知会员服务
15+阅读 · 2019年10月25日
连夺4项第一!AI常识推理和人类又近了3%
新智元
0+阅读 · 2022年4月28日
论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换
开放知识图谱
0+阅读 · 2022年2月26日
论文浅尝 | 基于时序知识图谱的问答
开放知识图谱
6+阅读 · 2021年12月1日
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
国家自然科学基金
2+阅读 · 2015年5月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2019年6月19日
VIP会员
相关资讯
连夺4项第一!AI常识推理和人类又近了3%
新智元
0+阅读 · 2022年4月28日
论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换
开放知识图谱
0+阅读 · 2022年2月26日
论文浅尝 | 基于时序知识图谱的问答
开放知识图谱
6+阅读 · 2021年12月1日
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
25+阅读 · 2019年9月11日
论文浅尝 | 通过文本到文本神经问题生成的机器理解
开放知识图谱
10+阅读 · 2019年6月30日
论文浅尝 | 问题生成(QG)与答案生成(QA)的结合
开放知识图谱
16+阅读 · 2018年7月15日
相关基金
国家自然科学基金
2+阅读 · 2015年5月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员