加速 AI 2.0,ARC 推理挑战赛等你来战!

2018 年 3 月 20 日 AI研习社 杨文


目前市面上有很多智能语音问答产品,其中绝大多数给人的感觉就像是个玩具,甚至有些 “弱智”。为了解决 AI 在高级问答上的难题,近日,国外研究团队 Peter Clark 等人发表了一篇论文题目为:Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge(觉得你已经解决了问答难题? 来尝试 AI2 推理挑战赛吧(ARC)!这篇 paper 中提出的数据集也是小学自然科学领域目前最大的公开数据集。(文末有下载地址)

原文链接:http://data.allenai.org/arc/ 

ARC 数据集包含 7,787 个小学级别,多项选择的科学问题,旨在鼓励高级问题回答的研究。 数据集被分成挑战集和简易集,前者只包含基于检索算法和单词共现算法出现的回答不正确的问题。 问题分为以下几个部分:

  • 挑战训练集:1,119

  • 挑战开发集:299

  • 挑战测试集:1,172

  • 简易训练集:2,251

  • 简易开发集:570

  • 简易测试集:2,376

论文中提出了一个新的问题集、文本语料库和 baseline,这些共同构成了 AI2 推理挑战赛(ARC),以鼓励人工智能研究在高级问题回答中的应用。它需要比之前的挑战(如 SQUAD 或 SNLI)拥有更强大的知识和推理能力。 ARC 问题集分成挑战集和简易集,挑战集只包含基于检索算法和单词共现算法出现的回答不正确的问题。该数据集仅包含问题(用于人类测试),也是该领域目前最大的公开数据集(共 7,787 个问题)。我们在挑战集上测试了几条基线,其中包括在 SQUAD 和 SNLI 任务中领先的神经网络模型,但发现没有一个能够显著优于随机基线,这也反映了该项任务的难度。我们还发布了 ARC 语料库,这是一个与任务相关的大小为 14M 的科学语句语料库,并且实现了三种基线神经网络模型的测试。你的模型能否在上面更好地运行?

以下是 ARC 问题集在测试分区上的分数(单位:%正确率)。 

评分注释:如果模型能推测出给定问题的正确答案 k 线图,得分为 1 / k 分。

更多比赛内容:http://data.allenai.org/arc/ 

数据集下载地址:https://s3-us-west-2.amazonaws.com/ai2-website/data/ARC-V1-Feb2018.zip 

论文地址:https://arxiv.org/pdf/1803.05457.pdf 

【限时拼团】

NLP 工程师入门实践班

三大模块,五大应用,知识点全覆盖;

海外博士讲师,丰富项目分享经验;

理论 + 实践,带你实战典型行业应用;

专业答疑社群,结交志同道合伙伴。

▼▼▼








新人福利




关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据,教程,论文】



关于做 Kaggle 比赛,Jdata,天池的经验,看完我这篇就够了

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
一网打尽!100+深度学习模型TensorFlow与Pytorch代码实现集合
人工智能学习笔记,247页pdf
专知会员服务
181+阅读 · 2019年12月14日
【课程】伯克利2019全栈深度学习课程(附下载)
专知会员服务
56+阅读 · 2019年10月29日
阅读理解中的推理和符号机制[吕正东]CCKS ATT 16-2019
专知会员服务
16+阅读 · 2019年10月25日
AI会话能力超越人类!CoQA挑战赛微软创新纪录
谷歌发布问答系统新语料,同时发布相关挑战赛
问答系统冠军之路:用CNN做问答任务的QANet
AI科技评论
18+阅读 · 2018年5月11日
SQuAD文本理解挑战赛十大模型解读
黑龙江大学自然语言处理实验室
7+阅读 · 2018年1月17日
Arxiv
3+阅读 · 2019年9月5日
Rapid Customization for Event Extraction
Arxiv
7+阅读 · 2018年9月20日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
Arxiv
6+阅读 · 2018年6月20日
VIP会员
相关资讯
AI会话能力超越人类!CoQA挑战赛微软创新纪录
谷歌发布问答系统新语料,同时发布相关挑战赛
问答系统冠军之路:用CNN做问答任务的QANet
AI科技评论
18+阅读 · 2018年5月11日
SQuAD文本理解挑战赛十大模型解读
黑龙江大学自然语言处理实验室
7+阅读 · 2018年1月17日
Top
微信扫码咨询专知VIP会员