论文浅尝 | AI回答小学科学问题达到人类水平（OpenBookQA）

2022 年 5 月 5 日 开放知识图谱

转载公众号 | 南大Websoft

AI能否像人类一样学习掌握科学知识，理解运用常识知识，最终像人类一样参加并通过学科考试？近日，南京大学万维网软件研究组（Websoft）在人工智能评测集OpenBookQA上实现了突破，研发的GenMC模型取得了92%的正确率，首次达到了人类水平。

OpenBookQA是美国艾伦人工智能研究院（Allen Institute for AI）发布的问答技术评测集，由小学科学选择题组成，并提供了与之相关的核心科学事实作为课本。该评测集的目的是通过选择题考试，探究AI学习课本知识，以及在新的场景下利用知识的能力。除了课本知识以外，回答OpenBookQA中的问题还需要具备广泛的常识，这对AI带来了比较大的挑战。

OpenBookQA近年来吸引了包括谷歌、斯坦福等国际顶尖研究机构参与。在目前的排行榜上，由南京大学团队提出的GenMC模型以较显著的优势取得领先，其集成版本更是首次达到了人类在该评测集上的水平。

在OpenBookQA等选择题问答任务中，以往研究可分为两类范式——Text-to-Text范式与Encoder-Only范式。其中，以T5、UnifiedQA为代表的Text-to-Text范式基于encoder-decoder模型，它将问题和所有选项拼接作为输入，以正确选项文本作为生成目标。这类模型的优势是将不同格式的自然语言处理任务都统一构建为文本到文本（Text-to-Text）格式进行联合训练，有利于学习到更多知识。但对于选择题这种分类任务，encoder-decoder模型所学习的生成目标仅是对于输入的拷贝，这导致预训练模型的自然语言生成能力未被充分利用。而以BERT、RoBERTa为代表的Encoder-Only范式则不考虑decoder部分的使用，将问题与每个选项拼接并独立输入encoder，仅依赖于encoder的自然语言理解能力学习和预测。

这两种范式均无法充分挖掘预训练模型decoder中蕴含的丰富知识，对于选择题这种分类任务，如何更自然地用好encoder-decoder模型是一项技术挑战。为此，南京大学团队提出了一种生成增强的选择题问答模型GenMC，更好地结合了encoder的自然语言理解与decoder的自然语言生成能力，在OpenBookQA等选择题问答任务上取得了不错的效果。

GenMC受人类答题行为的启发而设计——先阅读题干，从自己脑海的背景知识中联想可能的解题线索，再带着线索理解和对比选项得出答案。例如问题“生产笔记本的公司所需的主要原料是什么？”，在选出正确答案“树”之前，GenMC能够通过题干生成常识线索 “纸”，作为关联题干中的“笔记本”和正确答案“树”的中间概念，从而帮助模型更好理解题目并作答。具体模型设计上，GenMC由“线索生成器”和“增强阅读器”两部分组成。模型结构如下图所示：

1、线索生成器模块以问题Q作为输入，得到线索的表示H^QC。该模块使用完整的encoder-decoder模型对问题Q编码，取encoder最后一层作为问题的表示H^Q，并以自回归的方式由decoder生成线索并取其稠密表示H^C。为了增强对线索的理解与表示，使用Transformer对H^Q和H^C做交互，得到最终的线索表示H^QC。

2、增强阅读器模块以问题Q和第i个选项O_i作为输入（在开卷设置中，检索文本也作为输入），对选项O_i用线索增强理解后，选择出正确答案。该模块仅用共享参数的encoder部分对问题Q和选项O_i编码，取encoder最后一层输出得到选项的上下文表示H_i^QO。接着采用dual-attention对H^QC和H_i^QO做信息融合，并经Pooling和MLP层得到选项O_i的得分。得分最高的选项被选为答案。