加速 AI 2.0，ARC 推理挑战赛等你来战！

2018 年 3 月 20 日 AI研习社 杨文

目前市面上有很多智能语音问答产品，其中绝大多数给人的感觉就像是个玩具，甚至有些 “弱智”。为了解决 AI 在高级问答上的难题，近日，国外研究团队 Peter Clark 等人发表了一篇论文题目为：Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge（觉得你已经解决了问答难题？来尝试 AI2 推理挑战赛吧（ARC）！这篇 paper 中提出的数据集也是小学自然科学领域目前最大的公开数据集。（文末有下载地址）

原文链接：http://data.allenai.org/arc/

ARC 数据集包含 7,787 个小学级别，多项选择的科学问题，旨在鼓励高级问题回答的研究。数据集被分成挑战集和简易集，前者只包含基于检索算法和单词共现算法出现的回答不正确的问题。问题分为以下几个部分：

挑战训练集：1,119

挑战开发集：299

挑战测试集：1,172

简易训练集：2,251

简易开发集：570

简易测试集：2,376

论文中提出了一个新的问题集、文本语料库和 baseline，这些共同构成了 AI2 推理挑战赛（ARC），以鼓励人工智能研究在高级问题回答中的应用。它需要比之前的挑战（如 SQUAD 或 SNLI）拥有更强大的知识和推理能力。 ARC 问题集分成挑战集和简易集，挑战集只包含基于检索算法和单词共现算法出现的回答不正确的问题。该数据集仅包含问题（用于人类测试），也是该领域目前最大的公开数据集（共 7,787 个问题）。我们在挑战集上测试了几条基线，其中包括在 SQUAD 和 SNLI 任务中领先的神经网络模型，但发现没有一个能够显著优于随机基线，这也反映了该项任务的难度。我们还发布了 ARC 语料库，这是一个与任务相关的大小为 14M 的科学语句语料库，并且实现了三种基线神经网络模型的测试。你的模型能否在上面更好地运行？

以下是 ARC 问题集在测试分区上的分数（单位：％正确率）。

评分注释：如果模型能推测出给定问题的正确答案 k 线图，得分为 1 / k 分。

更多比赛内容：http://data.allenai.org/arc/

数据集下载地址：https://s3-us-west-2.amazonaws.com/ai2-website/data/ARC-V1-Feb2018.zip

论文地址：https://arxiv.org/pdf/1803.05457.pdf

【限时拼团】

NLP 工程师入门实践班

三大模块，五大应用，知识点全覆盖；

海外博士讲师，丰富项目分享经验；

理论 + 实践，带你实战典型行业应用；

专业答疑社群，结交志同道合伙伴。

▼▼▼

新人福利

关注 AI 研习社（okweiwu），回复 1 领取

【超过 1000G 神经网络 / AI / 大数据，教程，论文】

关于做 Kaggle 比赛，Jdata，天池的经验，看完我这篇就够了

▼▼▼

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

李飞飞经典CS231N-2020季开课了！斯坦福《卷积神经网络视觉识别》4月7号开始！不容错过！

专知会员服务

61+阅读 · 2020年4月8日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

预训练语言模型BERT，Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑，35页ppt

专知会员服务

112+阅读 · 2020年1月7日