目前市面上有很多智能语音问答产品,其中绝大多数给人的感觉就像是个玩具,甚至有些 “弱智”。为了解决 AI 在高级问答上的难题,近日,国外研究团队 Peter Clark 等人发表了一篇论文题目为:Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge(觉得你已经解决了问答难题? 来尝试 AI2 推理挑战赛吧(ARC)!这篇 paper 中提出的数据集也是小学自然科学领域目前最大的公开数据集。(文末有下载地址)
原文链接:http://data.allenai.org/arc/
ARC 数据集包含 7,787 个小学级别,多项选择的科学问题,旨在鼓励高级问题回答的研究。 数据集被分成挑战集和简易集,前者只包含基于检索算法和单词共现算法出现的回答不正确的问题。 问题分为以下几个部分:
挑战训练集:1,119
挑战开发集:299
挑战测试集:1,172
简易训练集:2,251
简易开发集:570
简易测试集:2,376
论文中提出了一个新的问题集、文本语料库和 baseline,这些共同构成了 AI2 推理挑战赛(ARC),以鼓励人工智能研究在高级问题回答中的应用。它需要比之前的挑战(如 SQUAD 或 SNLI)拥有更强大的知识和推理能力。 ARC 问题集分成挑战集和简易集,挑战集只包含基于检索算法和单词共现算法出现的回答不正确的问题。该数据集仅包含问题(用于人类测试),也是该领域目前最大的公开数据集(共 7,787 个问题)。我们在挑战集上测试了几条基线,其中包括在 SQUAD 和 SNLI 任务中领先的神经网络模型,但发现没有一个能够显著优于随机基线,这也反映了该项任务的难度。我们还发布了 ARC 语料库,这是一个与任务相关的大小为 14M 的科学语句语料库,并且实现了三种基线神经网络模型的测试。你的模型能否在上面更好地运行?
以下是 ARC 问题集在测试分区上的分数(单位:%正确率)。
评分注释:如果模型能推测出给定问题的正确答案 k 线图,得分为 1 / k 分。
更多比赛内容:http://data.allenai.org/arc/
数据集下载地址:https://s3-us-west-2.amazonaws.com/ai2-website/data/ARC-V1-Feb2018.zip
论文地址:https://arxiv.org/pdf/1803.05457.pdf
【限时拼团】
NLP 工程师入门实践班
三大模块,五大应用,知识点全覆盖;
海外博士讲师,丰富项目分享经验;
理论 + 实践,带你实战典型行业应用;
专业答疑社群,结交志同道合伙伴。
▼▼▼
新人福利
关注 AI 研习社(okweiwu),回复 1 领取
【超过 1000G 神经网络 / AI / 大数据,教程,论文】
关于做 Kaggle 比赛,Jdata,天池的经验,看完我这篇就够了
▼▼▼