AI Challenger 2018 即将进入决赛，八大数据集抢先看

2018 年 11 月 1 日 AI研习社

雷锋网(公众号：雷锋网) AI 研习社消息，由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实世界的问题」，主办方提供超过 300 万人民币奖金。

8 月 29 日至 11 月 4 日是第一阶段比赛，参赛队基于训练集、验证集、测试集 A，进行算法设计、模型训练及评估，并提交预测结果，并将于 2018 年 11 月 6 至 8 日开始第二阶段比赛，开放测试集 B。竞赛总决赛答辩和颁奖将于 12 月 18、19 日进行。（个别竞赛时间不一致，以大赛官网为准。）

今年比赛与去年一样，分为主赛道和实验赛道，目前，数据集也陆陆续续发布，接下来，雷锋网 AI 科技评论将会带来这些数据集的介绍，大家可以挑选合适的数据集下载，用于自己的模型训练。

观点型问题阅读理解数据集

本数据集针对阅读理解中较为复杂的，需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题，构造了 30 万组由问题、篇章、候选答案组成的训练和测试集合。是目前为止全球难度最大的中文阅读理解公开数据集，全球最大的观点型机器阅读理解公开数据集。

训练集：25 万

验证集：3 万

测试集A：1 万

测试集B：1 万

每条数据为<问题，篇章，候选答案> 三元组组成，每个问题对应一个篇章（500 字以内），以及包含正确答案的三个候选答案。

问题：真实用户自然语言问题，从搜索日志中随机选取并由机器初判后人工筛选

篇章：与问题对应的文本段，从问题相关的网页中人工选取

候选答案：人工生成的答案，提供若干（三个）选项，并标注正确答案

地址：https://challenger.ai/dataset/oqmrcd2018

细粒度用户评论情感分析数据集

用户评论对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值，并且在互联网行业有极其广泛的应用，主要用于个性化推荐、智能搜索、产品反馈、业务安全等。为了促进情感分析技术的发展，主办方提供了一个面向餐饮领域的细粒度用户评论情感分析数据集，包含 33.5 万条自大众点评的真实公开用户评论，依据其粒度不同构建双层标注体系，共包含 6 大类 20 个细粒度要素。

训练集：105,000 条

验证集：15,000 条

测试集 A：15,000 条

测试集 B：200,000 条

数据集中的评价对象按照粒度不同划分为两个层次，层次一为粗粒度的评价对象，例如评论文本中涉及的服务、位置等要素；层次二为细粒度的情感对象，例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。每个细粒度要素的情感倾向有四种状态：正向、中性、负向、未提及。使用[1,0,-1,-2]四个值对情感倾向进行描述。

地址：https://challenger.ai/dataset/fsaouord2018

英中翻译数据集

随着深度学习技术的不断发展，近年来机器翻译研究研究受到了越来越多的关注。主办方提供了一个英中机器翻译数据集，包含了 1000 万英中对照的句子对作为数据集合。数据主要来源于英语学习网站和电影字幕，领域为口语领域。另外，还提供 300 万带有上下文情景的英中双语口语数据。所有双语句对经过人工检查，数据集从规模、相关度、质量上都有保障。

训练集：1300 万

验证集：8000

测试集 A：8000

测试集 B：8000

地址：https://challenger.ai/dataset/ectd2018

多标签短视频分类数据集

数据集共包含 20 万条短视频，涵盖舞蹈、健身、唱歌等 63 类流行元素，分为训练集（12 万）、验证集（3 万）、测试集 A（3 万）、测试集 B（3 万）。大部分视频的长度为5-15秒。

本数据集采用多标签分类体系，标签信息包含视频主体、场景、动作等多个维度，标注信息将尽量包含视频中展现的所有元素，每条视频有1-3个标签。

相较于传统视频数据集来说，本数据集更具特色。本数据集视频采集设备多为手机且比例多为竖屏；数据集中的很多视频使用了短视频特效，并包含更多视频快进、剪辑等操作；从视频内容上讲，本数据集包含了更多人物中心化的自拍短视频内容。

地址：https://challenger.ai/dataset/mlsvd2018

天气预报数据集

天气预报数据集由北京市 10 个气象站点，共 3 年多的逐小时历史「观测」和「睿图」数据组成。这是中国气象局北京城市气象研究所公开发布的气象数据集，其时间跨度长且密度高，包含气象要素的实况和预报两部分，对提高天气预报准确性具有重要作用。

数据连续性较好，缺失样本（-9999.）很少，并通过 NetCDF4 格式共同存储于单个 nc 文件中。「观测」集逐时记录当前气象观测站点的 9 个地面气象要素，通过气象仪器实时监测得到；「睿图」集包含地面和特征气压层共计 29 个气象要素，由数值预报模式在超级计算机上运算产生。

训练集：1188 天样本

验证集：89 天样本

测试 A 集：包含两个数据集，分别为 2018 年 8 月 29 日至 9 月 24 日和 2018 年 8 月 29 日至 10 月 15 日，分别有 27 天和 48 天样本

测试 B 集：包含 7 个数据集，全部以 2018 年 8 月 29 日为起始日期，以 10 月 28 日至 11 月 3 日分别为结束日期，分别有 61–67 天样本

地址：https://challenger.ai/dataset/wfd2018

农作物病害数据集

标注图片 50,000 张、包含 10 种植物的 27 种病害。

本数据集合由上海新客科技和创新工场联合打造。数据集有 61 个分类（按「物种-病害-程度」分），10 个物种，27 种病害（其中 24 个病害有分一般和严重两种程度），10 个健康分类，47393 张图片。每张图包含一片农作物的叶子，叶子占据图片主要位置。数据集随机分为训练（70%）、验证（10%）、测试 A（10%）与测试 B（10%）四个子数据集。其中，训练集有 32,739 张图片，验证集有 4,982 张图片，测试集 A 有 4,959 张图片，测试集 B 有 4,957 张图片。

地址：https://challenger.ai/dataset/pdd2018

眼底病变数据集

视网膜水肿是一种常见的眼部病理改变，会导致不同程度的视力下降，从而影响正常的生活。尽早的发现水肿症状，能够对疾病的诊断和治疗起到重要的作用。如今临床上使用 OCT（光学相干断层成像）辅助医生对视网膜水肿进行判断。

主办方提供了眼部 OCT 样本的图像数据集，由专业眼科医生分别对三种类型的水肿进行标注，数据量达到 100 个 OCT 体数据，每个体数据 128 张图片。这是国内首个眼底病变医学图像检测竞赛，使用了目前最大的眼底病变数据集，是一次 AI 与医学技术的结合

训练数据包括 cube OCT 数据和水肿标记数据，每个 cube 含有 128 张图片。

验证数据除了 cube OCT 数据和水肿标记数据，还包括提交标准即水肿类型标记和体素标记。

水肿类型标记为 [128，3] 的 01 矩阵，分别标记 128 张图片中对应水肿类型。

体素标记为 [128,1024,512] 矩阵，0、1、2、3 分别代表 Background、REA、SRF、PED。

测试数据为 cube OCT 数据。

地址：https://challenger.ai/dataset/fld2018

图像属性数据集

本数据集由创新工场、北京大学王亦洲教授和复旦大学付彦伟教授联合构造。属性标注对于实现图像理解、知识迁移具有重要意义。

本数据集共 78,017 张图片，可划分为 5 个超类（super-class），分别是动物（Animals）、水果（Fruits）、交通工具（Vehicles）、电子产品（Electronics）、发型（Hairstyles）。其中，动物和水果属于自然产物，交通工具和电子产品属于人造物，发型属于抽象概念。每个超类分别包含 A: 50, F: 50, V: 50, E: 50, H: 30 个类别，总计 230 个类别。对于每个超类（super-class），分别设计了 A: 123, F: 58, V: 81, E: 75, H: 22 个属性，共 359 个属性。每张图片只包含一个前景物体，标注了标签和物体包围框。对于每个类别，随机挑选了 20 张图片进行属性标注。