文 / Google Research 客座研究员 Eunsol Choi 和研究员 Tom Kwiatkowski
自然语言处理 (NLP) 的主要目标之一是构建可以回答用户问题的系统。要做到这一点,计算机需要理解问题,展现世界知识,并推理出答案。答案通常可从文档集合或知识图谱中检索得出。例如,要回答“独立宣言是什么时候正式签署的?”这个问题,系统可能会先从维基百科中查找最相关的文章,然后定位包含答案的句子,检索得到“1776 年 8 月 2 日”。
但是,以 T5 为例,近来一些方法也表明,在大量网络文本上训练的神经模型可无需检索文档或从知识图谱中检索事实,直接回答问题。这便引发了大量关于存储供问题回答系统所使用的知识格式的争论:这些知识是应该存储为人类可读的文本或结构化格式的形式,还是神经网络的习得参数?
T5
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
今天我们荣幸宣布,在 NeurIPS 2020 上我们将与普林斯顿大学和华盛顿大学联合举办 EfficientQA 竞赛和研讨会。我们的目标是开发一个端到端的问答系统,系统中将包含回答开放域问答所需的全部知识。本次竞赛对于知识的存储方式没有限制,可以是文档、数据库、神经网络的参数或其他任何形式,但参赛作品将以访问这些知识所用的数据量进行评估,包括代码、语料库和模型参数。此外,还有一个无约束赛道:在不考虑系统大小的情况下达到最佳的答题性能。为了构建小型而稳健的系统,参赛者必须探索知识表示和推理的新方法。
图为内存预算如何随着神经网络和检索语料库的增长和收缩而变化。成功的系统也可能使用其他资源,如知识图谱
NeurIPS 2020
https://neurips.cc/Conferences/2020
EfficientQA 竞赛和研讨会
https://efficientqa.github.io/
竞赛概述
竞赛将采用自然问题数据集的开放域变体进行评估。考虑到同一个问题有许多正确的答案,而没有任何一套参考答案能涵盖所有方法,我们还将对所有表现优异的参赛作品进行进一步的人工评估。例如,对于“Jeep 是什么类型的汽车?”这一问题,“越野车”和“跨界 SUV”均为有效答案。
比赛将分为四个独立赛道:500 Mb 以下的最佳性能系统;6 Gb 以下的最佳性能系统;获得至少 25% 准确率的最小系统;以及无限制的最佳性能系统。各赛项的优胜者将获邀在 NeurIPS 2020 的竞赛赛道中展示作品,活动将以虚拟方式举办。我们还将在虚拟会议上让每个获胜系统与人类知识专家展开实时比拼(如在 2017 NeurIPS 人机竞赛上,邀请到了《危险边缘》和《百万富翁》的冠军)。
NeurIPS 2020 的竞赛赛道
https://neurips.cc/Conferences/2020/CompetitionTrack
2017 NeurIPS 人机竞赛
https://sites.google.com/corp/view/qanta/past-events?authuser=0
参赛相关
您可以在官网找到可供下载的数据与评估代码、日期与参赛说明,提交注册表格,以了解最新进展。我们和学术合作伙伴共同提供了一些示例系统,帮助您快速入门。
官网
https://efficientqa.github.io/
我们相信,对小型系统问答方案的更深入探索和比较将使自然语言处理领域受益。我们希望,这次竞赛能够鼓励开发小型系统,助力设备端问答系统的发展。
致谢
举办这一挑战赛和研讨会需要大量团队合作,包括来自 Google 的 Adam Roberts、Colin Raffel、Chris Alberti、Jordan Boyd-Graber、Jennimaria Palomaki、Kenton Lee、Kelvin Guu 和 Michael Collins ;来自华盛顿大学的 Sewon Min 和 Hannaneh Hajishirzi;以及来自普林斯顿大学的 Danqi Chen 。
更多 AI 相关阅读: