文 / Tom Kwiatkowski 和 Michael Collins,Google AI 语言团队研究员
开放域问答 (QA) 是自然语言理解 (NLU) 中的一项基准任务,旨在模拟人类查找信息的方法,并通过阅读和理解整个文档来寻找问题的答案。若给定一个用自然语言表达的问题(“天空为什么是蓝色的?”),QA 系统应该能够查阅网页(例如维基百科页面)并返回正确答案,即使答案有些复杂和冗长也会如此。然而,目前还没有大型且公开可用的自然发生问题(即查找信息的用户提出的问题)来源和能够用于训练和评估 QA 模型的答案。这是因为构建高质量的问答数据集需要庞大的真实问题来源,并且需要大量人力来寻找正确答案。
为助推 QA 领域的研究进展,我们很高兴地宣布推出自然问题 (NQ),这是一个用于训练和评估开放域问答系统的新型大规模语料库,也是首个能够复制人类查找问题答案这一端到端流程的语料库。NQ 非常庞大,其中包含 300000 个自然发生的问题以及来自维基百科页面的人工注释答案,可用于训练 QA 系统。我们还额外加入了 16000 个示例,每个示例均由 5 位不同的注释者提供答案(针对相同的问题),这对评估 QA 系统在学习后的性能大有帮助。鉴于回答 NQ 中的问题比回答琐碎问题(计算机可以轻而易举地解决这些问题)需要更深入的理解,我们还发起了一项基于此类数据的挑战赛,以帮助提升计算机的自然语言理解能力。
数据
NQ 是首个使用自然发生的查询创建的数据集,着重于通过阅读整个页面来查找答案,而非从短段落中提取答案。为了创建 NQ,我们从用户发布到 Google 搜索引擎上的真实且经匿名化处理的汇总查询入手。然后,我们要求注释者通过阅读整个维基百科页面来寻找答案,就好像这些问题是由他们提出一样。注释者需同时找到问题的长答案和短答案,其中长答案涵盖推断答案所需的全部信息,而短答案则会使用一个或多个实体名称来简洁地回答问题。我们对 NQ 语料库中的注释质量进行了评估,其准确率高达 90%。
我们在《自然问题:问答研究的基准》(Natural Questions: a Benchmark for Question Answering Research) 一文中对数据收集过程进行了全面阐述,该论文已获准在《计算语言学协会会刊》(Transactions of the Association for Computational Linguistics) 上发表。如需查看该数据集的更多示例,请访问 NQ 网站。
注:NQ 网站 链接
https://ai.google.com/research/NaturalQuestions/visualization
挑战赛
NQ 致力于使 QA 系统能够阅读和理解整篇维基百科文章,无论其中是否包含问题答案。系统首先需要确定问题的定义是否充分,是否能够回答,因为许多问题都是在做错误的假设,或者过于模糊而无法简明扼要地回答。然后,系统需要确定维基百科页面中是否包含推断答案所需的全部信息。我们认为,相比于在已知长答案的情况下查找短答案,长答案识别任务(即查找推断答案所需的全部信息)需要更深层次的语言理解。
我们希望 NQ 的发布以及相关挑战赛将有助于推动开发更有效、更强大的 QA 系统。我们鼓励 NLU 社区参与其中,并帮助缩小目前最先进方法的成效与人类上限之间的巨大差距。请访问 挑战赛网站 查看排行榜并了解详情。
注:挑战赛网站 链接
https://ai.google.com/research/NaturalQuestions
更多 AI 相关阅读: