常识问答研究综述

常识问答是一项重要的自然语言理解任务, 旨在利用常识知识对自然语言问句进行自动求解, 以得到准确答案. 常识问答在虚拟助手或社交聊天机器人等领域有着广泛的应用前景, 且其蕴涵了知识挖掘与表示、语言理解与计算、答案推理和生成等关键科学问题, 因而受到工业界和学术界的广泛关注. 首先介绍常识问答领域的主要数据集; 其次, 归纳不同常识知识源在构建方式、常识来源和表现形式上的区别; 同时, 重点分析并对比前沿常识问答模型, 以及融合常识知识的特色方法. 特别地, 根据不同问答任务场景中常识知识的共性和特性, 建立包含属性、语义、因果、语境、抽象和意图 6 大类的知识分类体系. 以此为支撑, 针对常识知识数据集建设, 感知知识融合和预训练语言模型的协作机制, 以及在此基础上的常识知识预分类技术, 进行前瞻性的研究, 并具体报告上述模型在跨数据集迁移场景下的性能变化, 及其在常识答案推理中的潜在贡献. 总体上, 包含对现有数据和前沿技术的回顾, 也包含面向跨数据知识体系建设、技术迁移与通用化的预研内容, 借以在汇报领域技术积累的前提下, 为其理论和技术的进一步发展提供参考意见。 “感知智能”向“认知智能”转化是人工智能最新的发展趋势. “感知智能”是指机器具备视觉、听觉和触觉等感知与加工能力, 比如人脸识别、语音识别等[1] . 相比而言, “认知智能”是从类脑研究和认知科学的角度出发, 结合跨领域的知识图谱[2] , 因果推理[3]和主动学习[4]等技术, 赋予机器类似人类的思维逻辑和认知能力, 尤其是理解、归纳和应用知识的能力. 其中, 智能问答是“认知智能”的典型案例之一, 而常识问答 (commonsense question answering, CQA) 是以常识知识为认知基础的智能问答关键技术. 相关技术产出已在苹果 Siri 语音助手、谷歌智能助理、阿里小蜜和微软小冰社交机器人等工业产品中得以应用. CQA 的任务定义是: 给定特定自然语言问句, 机器结合已有常识知识或其自助挖掘技术, 实现答案求解. 求解过程可为判别式, 也可为生成式. 其中, 判别式 CQA 进一步细分为多项选择和正误判断. 前者旨在基于问题理解和语段阅读理解, 结合常识知识, 从包含正确答案的选项集合中选择“符合答案特性”的正确答案; 后者基于给定文本的理解以及与其相关的常识知识, 判断该文本表述的内容是否正确. 生成式 CQA 则不依赖上下文, 实现答案文字片段的自动生成. 表 1 与表 2 分别给出了判别式 CQA 和生成式 CQA 的样例.

CQA 与一般的自动问答系统 (如开放域自动问答、知识库自动问答、社区自动问答) 的区别是答案来源不同. 前者的答案来源通常是常识知识库, 而后者的答案来源于互联网资料、知识库或历史问答对数据. 其共同点是模型均需要对给定问题以及答案来源之间建立推理机制, 以求解正确答案. 特别地, 知识库问答与 CQA 存在较大区别. 首先, 知识库问答的答案来自知识库, 而 CQA 的答案需要对常识知识库的信息做深层推理, 同时, 后者涉及的知识库往往更为抽象, 如一种表示概念关系的图谱 ConceptNet[5] ; 其次, 知识库问答研究的问题一般针对知识库中已有的实体和关系, 而 CQA 涉及的问题通常更为开放, 无法仅依赖模式相对固定的知识库来求解。

目前, CQA 已经获得了广泛的研究, 在数据建设、任务设置与更新、关键技术突破方面, 都取得了重要成果. 在数据建设方面, 现有 CQA 的权威数据集数量达 12 种, 数据来源涉及 9 个领域, 包括社交媒体、自然科学、日常生活等. 在任务设置的多样性方面, 现有 CQA 研究方向可细分为常识知识源构建、常识知识获取、知识融合推理和可解释性生成共计 4 个主干子方向. 在关键技术突破方面, 相关研究已从传统的基于规则和统计的方法, 以及前期利用循环神经网络 (RNN)[6]、长短期记忆网络 (LSTM)[7]和注意力机制[8]的中小型神经网络常识知识问答模型, 过渡到近期基于预训练语言模型 (如 BERT[9]、RoBERTa[10]、BART[11]、GPT3[12]和 T5[13] ) 的大型神经 CQA 技术, 以及一系列结合经验发现和认知原理的特色技术[14,15] . 相关工作在深度语义理解、知识挖掘与应用、问答关系线索感知, 以及智能答案推理与生成等关键问题上, 形成了一批出色的技术产出[16−19] .

本文综述了上述技术发展现状, 并对现有研究热度较高的权威数据集, 以及相对应的 CQA 任务特色 (构建方式、知识源和表现形式) 和常识知识类型进行了介绍, 以此推动学术界和工业界同行进行“精准”的课题定位与技术实践. 特别地, 本文提供了一项小型的专题介绍, 围绕该领域的技术攻坚重点, 深入探讨“基于大型预训练语言模型进行常识知识融合”的 CQA 技术, 对融合方法、推理机制、知识源、知识挖掘线索的内在关系进行了详细分析. 在此基础上, 本文通过系统性的实验, 分析验证了上述知识融合技术和预训练语言模型的适应性, 特别是对不同 CQA 数据源和常识知识类型的适用性, 以此为未来相关研究提供基线. 本文第 1 节介绍 CQA 任务的研究现状, 包含了早期基于规则和统计技术的传统方法, 以及近期利用神经网络架构和预训练语言模型的前沿方法. 第 2 节描述了近 5 年 CQA 任务常用的 9 套数据集, 包括 Commonsense QA[20]、 Openbook QA[21]、ARC[22]、Social IQA[23]、Cosmos QA[24]、MCScript[25]、MCScript2.0[26]、ReCoRD[27]和 ProtoQA[28] . 第 3 节从构建方式、知识来源和表现形式这 3 个方面对不同的常识知识资源进行归纳与对比, 并将 CQA 数据集所需的常识知识分为属性、语义、因果、语境、抽象和意图这 6 种类型. 第 4 节为小型专题, 其从方法设计角度, 对目前大型 CQA 模型与常识知识融合方法进行分析和对比. 第 5 节是对第 3 节和第 4 节内容的扩展, 侧重提供实验和量化数据, 借以反映现有主要 CQA 技术在不同数据集和常识知识类型上的适用性, 纳入实验的 CQA 技术具有一种感知常识知识的语言模型框架, 其在现阶段具有较高的代表性和前沿性. 第 6 节在总结全文的基础上, 剖析了目前 CQA 任务存在的难点、发展趋势和未来的挑战.

1 CQA 技术现状回顾

传统问答任务主要测试模型的语义理解和推理能力, 通常根据给定的上下文寻找问题的答案. 当给出的问题超出模型的认知范畴时, 其难以预测出正确答案. 因此, 考虑外部知识或世界知识的 CQA 任务逐渐引起了学者的广泛关注. 目前, CQA 研究已历经两个技术发展阶段, 早期研究主要围绕基于规则和特征工程的方法展开, 初步结合外部知识库或互联网知识挖掘技术, 通过常识知识提取和简易推理手段, 实现答案推荐或判定. 从 2018 年开始, 随着神经网络模型的进一步发展和预训练语言模型的提出, 研究者们广泛地将神经网络和预训练语言模型应用于 CQA 任务, 形成了基于深度语义理解与表示, 以及知识结构和关系建模的神经 CQA 研究流派. 下面分别对两个研究阶段中的代表性工作给与回顾 (各项技术的详细回顾见表 3).

2 面向常识知识的问答数据

为了探索 CQA 数据集如何考察模型的常识推理能力, 本文对该类数据集进行了广泛调研. 我们从数据集、任务形式、选项数量、背景知识和数据规模 5 个方面对 9 套 CQA 数据集进行统计和分析, 具体如表 4 所示.

3 常识知识来源与类型

常识知识被定义为大多数人共享的世界知识, 在人们的日常交流中, 其作为背景信息, 用于填补自然语言中的 “留白”, 帮助人们在交流过程中达成共识[53] . 由于常识知识的隐含性与多样性, 研究者们将常识知识源定义为一种辅助常识提取的多模式存储库[54] . 常识知识来源有多种形式, 并涵盖了不同类型的知识. 本节统计了一组具有代表性的常识知识源 (包括涵盖常识知识的知识库或词典). 此外, 本节探讨了 CQA 数据集中, 问题与答案之间所需的常识知识类型, 辅助未来研究选择合适的常识知识源进行研究.

4 结合常识知识源的预训练 CQA 技术

如前所述 (第 1 节技术概述), 围绕 Transformer 架构的 CQA 技术可基本划分为感知常识知识与加载常识知识两大类研究. 在第 1 节, 本文概述了其中较为有代表性的前人工作. 本节将以 BERT、GPT-2 和 T5 等预训练语言模型为中心, 系统地回顾和分析结合常识知识的预训练 CQA 技术. 本节涉及的技术主要来自 ACL、AAAI、 EMNLP、NAACL 和 COLING 等自然语言处理权威国际会议. 回顾和分析的重点集中在 CQA 模型如何获取以及利用常识知识的技术细节, 借以辅助读者全面了解 CQA 研究的各项前沿技术 (各项技术的详细对比见表 8).

5 CQA 与知识类型体系的关系分析

目前, 针对不同知识类型进行考察的相关工作较少. 此外, 面向不同知识类型, 检验现有 CQA 技术适应性和通用性的专门研究也乏善可陈. 为此, 本节开展了一项预研性的验证工作, 即 CQA 技术与知识类型的适用关系研究, 以此为未来相关技术的优化提供参考. 这一初步研究纳入了第 3 节建立的常识知识分类体系, 并考察了一套基于预训练语言模型的 CQA 技术. 考察点设定为 CQA 技术在不同知识类型上的应用效果.

6 总结与展望

CQA 是机器认知和理解常识知识, 并结合计算语言学形成智能运算和处理的重要任务. 从理论和关键技术层面开展 CQA 研究, 对问答领域的科技发展有着重要的意义. 本文回顾了现阶段 CQA 的主流研究趋势和代表性技术成果, 并在数据构建和知识分类上给与了详细介绍. 特别地, 本文借助两个专题介绍, 分别透视了基于预训练语言模型的各类 CQA 技术细节, 并验证了知识分类体系在优化现有 CQA 技术中的积极作用. 总体上, CQA 的发展状况可以总结为如下几个方面. 其一, 现有 CQA 数据集已从不同维度考察模型运用常识知识的能力. 其二, 以 Transformer 为基础的预训练语言模型, 从表示学习的角度推动了一系列新颖的 CQA 求解策略和设计思想. 其三, 以预训练语言模型为核心架构, 利用常识知识源进行知识加载和感知的技术路线, 已经产生较多关键技术成果. 其四, 本文综合前人研究证明了, CQA 数据集蕴涵的常识知识类型, 及其与常识知识源的匹配程度, 直接影响模型的知识感知和问题求解性能. 尽管如此, 目前 CQA 任务仍面临如下挑战.

(1) 常识知识源的完备性不足: 现有的常识知识源 (如 ConceptNet) 通过人工标注和规则方法生成, 具有比较高的质量和一定的数据规模. 但是, 全局常识知识数量庞大, 且具有动态发展和变化的特性. 因此, 现有常识知识源的完备性并不完善. 其导致的结果是, CQA 模型不足以回答实用阶段的所有问题. 扩展或补充现有知识源是一种潜在的优化手段, 但人工标注的成本昂贵且效率不高, 其面对不断更新的常识知识, 难以形成同步的更新.

(2) CQA 模型缺少深层次理解知识的能力: 现有实验表明, 预训练语言模型通过微调或采用与常识知识源融合的方式, 在一些 CQA 任务上取得较好的结果. 原因在于预训练语言模型本身的文本理解能力, 以及常识知识增强模型对知识的感知与浅层推理能力. 特别是注意力机制能够帮助模型着重关注常识知识或问题中重要的词元信息. 此外, 利用图结构的 CQA 模型, 能够在一定程度上获取结构化的关联线索, 形成逻辑可解释的推理过程. 然而, Kavumba 等人[86]发现 BERT 等预训练语言模型的表现会受到浅层线索 (比如问答文本的语义信息) 的影响, 对于 CQA 任务而言, 浅层线索往往不足以辅助模型推理出正确答案. 如何有效利用问题与常识知识源的信息, 并对其展开深层次的理解与推理, 仍是解决 CQA 任务的关键环节.

(3) 模型的鲁棒性和泛化能力不足: 近年来, 许多 CQA 研究集中在如何捕捉任务本身与常识知识之间的语言相关性, 以此作为求解答案的基础. Da 等人[87]研究显示 BERT 在时序和感知类知识问答上的性能偏低; Petroni 等人[88]和 Poerner 等人[89]的研究表明, 预训练语言模型仍在保留常识知识蕴涵的信息上仍有不足. 以上研究进一步说明, 目前的 CQA 模型仍存在泛化能力不足的问题. 此外, CQA 数据存在表述偏差 (即由于常识知识的隐含性, 知识、问题和答案的文字描述与实际现实之间存在的潜在差异), 由此导致的结果是, CQA 模型过度收敛于开发集的表述模式, 在测试集和实用过程中的真实性能往往存在较为显著的落差. 其体现了现有 CQA 模型的低鲁棒性问题.

(4) 缺乏对常识知识的评估: 目前, CQA 模型仅通过下游任务的表现, 反推常识知识运用的合理性, 并不具备透视推理内核的评估手段. 完善的评估标准可辅助 CQA 模型筛选高质量的常识知识作为推理基础. 现有研究尚未涉及知识获取质量的评估.

(5) 中文常识问答研究不足: 针对不同语种的常识问答研究, 离不开对应语种的数据集与知识库的构建. 在中文领域, Li 等人[90]以 Atomic 为基础, 提出并构建了第一个大规模的中文常识对话知识图谱 C 3KG. 值得指出的是, 在中文领域, 学术界仍然缺乏高质量的常识问答数据集. 由于中文与英文在表述模式 (语法结构)、常识知识范畴 (地域、习俗) 上, 存在语言层面的固有差异. 现有研究尚未在中文常识问答上展开深入的探讨.

基于上述不足, 本文建议从如下 5 个方面进一步推动 CQA 相关研究, 包括数据构建的可靠性、知识获取的主动性、推理过程的可解释性、知识蕴涵的深度挖掘和中文常识问答的深入探讨.

(1) 构建高质量的常识问答数据集: 向数据构建过程引入多类型的常识知识, 拓展知识类型的覆盖面, 从而辅助 CQA 模型从更为宽泛的知识面中实施知识获取、线索挖掘和常识理解.

(2) 知识源更新和场景化挖掘: 研究动态跟踪知识发展的方法, 是未来 CQA 技术走向实用的重要环节. 特别地, 建立知识库和知识图谱的自动补全、自动更新及去冗余技术, 有着极为重要的应用价值. 此外, 实时挖掘相关于特定问题的知识, 是 CQA 技术中不可或缺的步骤. 预测问题所属领域, 特别是判断问题指向的真实场景, 并以领域和场景为约束, 精准获取相关知识、线索和结构, 对于建立精准化 CQA 有着极为重要的作用.

(3) 提高 CQA 推理过程的可解释性: 从自由文本和结构化知识图谱中挖掘线索, 并依据问题与线索之间的逻辑关系进行推理, 能够构成可解释性的推理链条. 但是, 线索的孤立性或局部的关联性, 对于语言的理解无法提供充分的上下文, 特别是线索的知识蕴涵或外延关系, 往往并未纳入线索挖掘的过程, 使得线索的理解存在天然的知识支撑. 因此, 跳出现有基于实体关系的单一逻辑关系, 拓展知识关联性的门类与结构, 从而发展线索的知识类画像, 以及多源关系的结构画像, 是形成可解释性答案推理的重要研究.

(4) 挖掘预训练语言模型中蕴涵的常识知识: 语言模型已在预训练阶段, 形成了感知语言特征和通用知识的能力, 其对于 CQA 模型的问题求解起到了重要的基础性作用 (即语言理解和知识感知作用). 但是, 这一感知过程是一种“黑盒”过程. 从而, 在处理各类特定领域的专有数据时, 预训练语言模型的感知内核无法得到评估和有效调整. 因此, 建立专门的任务形式和评估方法, 探测 CQA 感知内核的运算逻辑、知识认知程度和错误传递形式, 是提高预训练语言模型的迁移学习和微调效果的重要条件. 特别地, 这一技术能够为从根本上修正 CQA 内核的不足, 提供佐证与参考.

(5) 完善中文常识问答的研究: 常识问答研究已经形成了相对规范的研究模式, 主要包含基准数据集与常识知识库构建、常识知识获取和常识知识推理 3 部分. 设计符合中文常识范畴的常识问答数据集、构建大规模的常识知识库, 是展开中文常识问答研究的基础. 需要指出的是, 探究常识问答在中英文领域中的区别与联系, 有助于推动中文常识问答的研究.

成为VIP会员查看完整内容