「炼丹必备」15个常用基准数据集含大规模中文多模态理解、医疗信息处理等场景

2022 年 3 月 13 日 机器之心

炼丹为数据发愁？这份复习材料包含的基准数据集涵盖了计算机视觉、自然语言处理等领域，包括了大规模中文多模态理解、中文医疗信息处理等场景。

本篇是机器之心「虎卷er行动 · 春卷er」的第二卷，我们为老伙计们精选了各个领域 AI 开发者必备的 15 个基准数据集，同时「虎卷er · 春榜试题」已解锁「AI Foundation 专业知识与开发实践基础」的第一批 10 道题，想要「榜上有名」的老伙计别忘了回来答新题哦~

1、首个大规模中文多模态评测基准 MUGE

MUGE（Multimodal Understanding and Generation Evaluation）是业界首个大规模中文多模态评测基准，由达摩院联合浙江大学、阿里云天池平台联合发布，中国计算机学会计算机视觉专委会（CCF-CV专委）协助推出。MUGE榜单为研究者们提供了统一的数据和评测基准，旨在促进多模态理解与生成领域的技术发展。

到目前为止，MUGE 包括：多模态理解和生成任务的基准，包括电子商务图像字幕、文本到图像生成和多模态图文检索任务，供研究人员跟踪其模型性能的公共排行榜。

官网地址：https://tianchi.aliyun.com/muge
Github：https://github.com/MUGE-2021

2、中文医疗信息处理评测基准 CBLUE

中文医疗信息处理评测基准 CBLUE（Chinese Biomedical Language Understanding Evaluation）是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、平安医疗科技、阿里夸克、腾讯天衍实验室、北京大学、鹏城实验室、哈尔滨工业大学（深圳）、郑州大学、同济大学、中山大学、复旦大学等开展智慧医疗研究的单位共同协办，旨在推动中文医学 NLP 技术和社区的发展。

榜单在设计上综合考虑了任务类型和任务难度两个维度，目标是建设一个任务类型覆盖广、同时也要保证任务的难度的 benchmark，因此榜单在吸收往届 CHIP/CCKS/CCL 等学术评测任务的同时也适当增加了业界数据集，业务数据集的特点是数据真实且有噪音，对模型的鲁棒性提出了更高的要求。CBLUE 评测基准 2.0 包括医学文本信息抽取（实体识别、关系抽取、事件抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医疗对话理解与生成共 5 大类任务 14 个子任务。

官网地址：https://tianchi.aliyun.com/cblue
论文地址：https://arxiv.org/pdf/2106.08087.pdf
Github：https://github.com/CBLUEbenchmark/CBLUE

3、黑盒优化 Benchmark——RABBO

RABBO（Real-Aplication Black-Box Optimization benchmark）榜单由达摩院决策智能实验室倾力维护，依托于阿里云天池平台的支持，提供具有实际应用背景的黑盒优化测试问题及评测方案，旨在帮助算法研发者打磨求解真实场景问题的黑盒优化算法，为算法使用者提供各类算法特点与适用场景分析以及使用参考。

RABBO 提供了针对黑盒优化问题的数学建模和优化求解的思路，提供了黑盒优化接口规范代码、实际应用背景的测试问题、和效果评测的方案。2021 年 10 月发布的是 RABBO V1.0 版本，数据集的题目包含包含：经典题目集、金属冶炼配比优化、火星路径规划、风场微观选址。

天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=111953

4、人类动作识别的大规模数据集 NTU RGB+D

NTU RGB+D 是一个用于 RGB-D 人类动作识别的大规模数据集。它涉及从 40 名受试者身上收集的 60 个动作类别的 56,880 个样本。这些动作一般可分为三类。40 个日常动作（如喝水、吃饭、阅读），9 个与健康有关的动作（如打喷嚏、踉跄、跌倒），以及 11 个相互间的动作（如打拳、踢腿、拥抱）。这些动作发生在 17 个不同的场景条件下，对应 17 个视频序列（即 S001-S017）。

这些动作是用三台摄像机拍摄的，它们具有不同的水平成像视角，即 -45∘、0∘ 和 +45∘。为动作特征提供了多模式信息，包括深度图、三维骨架关节位置、RGB 帧和红外序列。性能评估是通过将 40 名受试者分成训练组和测试组的交叉测试，以及采用一台摄像机（+45∘）进行测试，另外两台摄像机进行训练的跨视角测试来进行的。

论文地址：https://arxiv.org/pdf/1604.02808v1.pdf
Github：https://github.com/shahroudy/NTURGB-D

5、大规模的分层图像数据库 ImageNet

ImageNet 数据集根据 WordNet 层次结构包含 14,197,122 个带注释的图像。自 2010 年以来，该数据集被用于 ImageNet 大规模视觉识别挑战赛 (ImageNet Large Scale Visual Recognition Challenge, ILSVRC)，这是图像分类和对象检测的基准。公开发布的数据集包含一组手动注释的训练图像。还发布了一组测试图像，保留了手动注释。

ILSVRC 注释属于以下两类之一：

（1）图像级二进制标签的注释，用于表示图像中是否存在对象类，例如，“这张图像中有汽车”但“没有老虎， ”

（2）图像中对象实例周围的紧密边界框和类标签的对象级注释，例如，“有一把螺丝刀以 (20,25) 位置为中心，宽度为 50 像素，高度为 30 像素”。

官方地址：https://image-net.org/index.php
论文地址：https://ieeexplore-ieee-org.ezproxy.library.sydney.edu.au/document/5206848
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=92252

6、六千万微小图片数据集 CIFAR-10

CIFAR -10（Canadian Institute for Advanced Research, 10 classes）是 Tiny Images 数据集的子集，由 60000 张 32x32 彩色图像组成，它们由 Alex Krizhevsky、Vinod Nair 和 Geoffrey Hinton 收集。这些图像标有 10 个相互排斥的类别之一：飞机、汽车（但不是卡车或皮卡车）、鸟、猫、鹿、狗、青蛙、马、船和卡车（但不是皮卡车）。每类有 6000 张图像，每类有 5000 张训练图像和 1000 张测试图像。

官方地址：https://www.cs.toronto.edu/~kriz/cifar.html
论文地址：https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=92264

7、大型的手写数字集合 MNIST

MNIST 数据库（Modified National Institute of Standards and Technology database）是一个大型的手写数字集合。它有一个包含 60,000 个例子的训练集和一个包含 10,000 个例子的测试集。

它是更大的 NIST 特别数据库 3（由美国人口普查局雇员书写的数字）和特别数据库 1（由高中学生书写的数字）的一个子集，其中包含手写数字的单色图像。这些数字的大小已被规范化，并在一个固定尺寸的图像中居中。来自 NIST 的原始黑白（二层）图像被归一化，以适合 20x20 像素的盒子，同时保留其长宽比。

官方地址：http://yann.lecun.com/exdb/mnist
论文地址：https://arxiv.org/pdf/1102.0183.pdf
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=92224

8、通用语言理解评估基准 GLUE

为了使自然语言理解（NLU）技术在实践中和作为科学研究对象发挥最大的作用，它必须是通用的：它必须能够以一种不专门针对任何一个特定任务或数据集的方式来处理语言。

为此，来自纽约大学、华盛顿大学、DeepMind 等机构的研究者提出通用语言理解评估基准（General Language Understanding Evaluation benchmark, GLUE），它是 9 个自然语言理解任务的集合，包括单句任务 CoLA 和 SST-2 ，相似性和转述任务 MRPC 、STS-B 和 QQP ，以及自然语言推理任务 MNLI、QLNLI、RTE 和 WNLI 。

官方地址：https://gluebenchmark.com
论文地址：https://arxiv.org/pdf/1804.07461v3.pdf

9、用于为关系数据库开发自然语言界面的大型众包数据集 WikiSQL

WikiSQL 包括一个由 87,726 个手工注释的 SQL 查询和自然语言问题对组成的语料库，由 Salesforce Research 发布。这些 SQL 查询被进一步分成训练（61297个例子）、开发（9145个例子）和测试集（17284个例子）。它可用于与关系型数据库有关的自然语言推理任务。

论文地址：https://arxiv.org/pdf/1709.00103v7.pdf
Github：https://github.com/salesforce/WikiSQL

10、来自维基百科文章的问题-答案对的集合 SQuAD

Stanford Question Answering Dataset （SQuAD）是一个来自维基百科文章的问题-答案对的集合，由斯坦福大学发布。在 SQuAD 中，问题的正确答案可以是给定文本中的任何标记序列。由于问题和答案是由人类通过众包产生的，因此它比其他一些问题-答案数据集更加多样化。

SQuAD 1.1 包含了 536 篇文章的 107,785 个问题-答案对。SQuAD 2.0（开放域 SQuAD，SQuAD-Open）是最新的版本，它将 SQuAD 1.1 中的 100,000 个问题与超过 50,000 个由众包者以类似于可回答问题的形式逆向编写的不可回答的问题相结合。

官方地址：https://stanford-qa.com
论文地址：https://arxiv.org/pdf/1606.05250v3.pdf
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=83061

11、大规模的人脸属性数据集 CelebA

CelebFaces Attributes Dataset (CelebA) 是一个大规模的人脸属性数据集，由香港中文大学开放提供。它包含超过 20 万张名人图像，每张图像有 40 个属性标记。该数据集中的图像涵盖了较大的姿势变化和背景杂乱。CelebA 种类多、数量多、注释丰富，包括 10,177 个身份，202,599 张人脸图像，以及 5 个人脸特征点坐标，每张图像 40 个属性标记。

该数据集可用作以下计算机视觉任务的训练和测试集：人脸属性识别、人脸识别、人脸检测、地标（或人脸部分）定位以及人脸编辑与合成。

官方地址：http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

12、行为识别数据集 UCF101

UCF101 数据集是 UCF50 的扩展，由 13,320 个视频片段组成，分为 101 个类别。这 101 个类别可分为 5 种类型（身体运动、人与人互动、人与物体互动、演奏乐器和运动）。这些视频剪辑的总长度超过 27 小时。所有视频均从 YouTube 收集，具有 25 FPS 的固定帧速率，分辨率为 320 × 240。

论文地址：https://arxiv.org/pdf/1212.0402v1.pdf
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=92158

13、城市街景语义理解的大型数据库 Cityscapes

Cityscapes 是一个专注于城市街景语义理解的大型数据库，由戴姆勒研究所，马克斯•普朗克信息学研究所和达姆施塔特科技大学可视化推理工作组提供。该数据集由大约 5000 个精细标注的图像和 20000 个粗糙标注的图像组成。它为分为 8 个类别（平面、人类、车辆、建筑、物体、自然、天空和虚空）的 30 个类别提供语义、实例和密集像素注释。该数据集具备多样性，历经数月（春、夏、秋）在白天和良好的天气条件下获得，并由手动选择帧，且具有以下特征：大量动态对象、变化的场景布局和变化的背景。

Cityscapes 数据集适用于

评估视觉算法在语义城市场景理解的主要任务中的性能：像素级、实例级和全景语义标记；
支持旨在利用大量（弱）注释数据的研究，例如用于训练深度神经网络。

官方地址：https://www.cityscapes-dataset.com
论文地址：https://arxiv.org/pdf/1604.01685v2.pdf
天池地址：https://tianchi.aliyun.com/dataset/dataDetail?dataId=92279

14、IBM 研究院、Meta AI 等多家机构发布新基准 SCROLLS

目前，NLP 的基准主要集中在短文本上，如句子和段落。来自 IBM 研究院、Meta AI 等多家机构发布新基准 SCROLLS (Standardized CompaRison Over Long Language Sequences)。

该条进展工作通过研究了现有的长文本数据集，并精心挑选了那些文本较长的数据集，同时优先考虑那些涉及综合输入信息的任务。SCROLLS 包含总结、问题回答和自然语言推理任务，涵盖多个领域，包括文学、科学、商业和娱乐。SCROLLS 以统一的文本到文本格式提供所有的数据集，并主持一个实时排行榜，以促进对模型架构和预训练方法的研究。

官方地址：https://www.scrolls-benchmark.com
论文地址：https://arxiv.org/abs/2201.03533v1

15、CLUE 团队发布应用在 NLP 领域的数据为中心的基准 DataCLUE

以数据为中心（Data-centric）的AI，是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据（无论是输入或者标签）来提高最终效果。

DataCLUE 是一个以数据为中心的 AI 测评。它基于 CLUE benchmark，结合 Data-centric 的 AI 的典型特征，进一步将 Data-centric 的 AI 应用于 NLP 领域，融入文本领域的特定并创造性丰富和发展了 Data-centric 的 AI。在原始数据集外，它通过提供额外的高价值的数据和数据和模型分析报告（增值服务）的形式，使得融入人类的 AI 迭代过程（Human-in-the-loop AI pipeline) 变得更加高效，并能较大幅度提升最终效果。

论文地址：https://arxiv.org/abs/2111.08647v2
Github：https://github.com/CLUEbenchmark/DataCLUE

在机器之心 SOTA！模型联合阿里云天池推出的「虎卷 er 行动 · 春卷er」中，我们基于 「 AI人必追」的本季度举办的国际顶会及机器之心报道中的社区热议工作 ，「炼丹者必备」的基准数据集、AI顶会挑战赛优胜算法及开发基础知识，共同设计了由60道选择题构成的「虎卷er · 春榜试题」，并编撰了 3 套独家配套技术复习资料，帮助关注前沿AI技术发展的开发者梳理第一季度的重要 AI 技术工作的同时帮助注重实践技能的开发者快速温故知新，巩固知识与技能。

「虎卷er · 春榜试题」具体分布如下 ——

「本季必追国际影响力AI工作」：共 18 题

「AI开发常用的Benchmark数据集」：共 15 题

「今年刷爆顶会Leaderboard的算法」：共 7 题

「AI Foundation专业知识与开发实践基础」：共 20 题

活动期间，关注「机器之心 SOTA模型」服务号，即可通过底部菜单栏进入活动。

跟随入口引导，使用阿里云账号登录后即可进入活动界面开始答题。

「春卷er」10道「AI Foundation专业知识与开发实践基础」新题已解锁！

1

在 CNN 网络中，某图经过核为 3x3，步长为 2 的卷积层，ReLU 激活函数层，BN 层，以及一个步长为 2，核为 22 的池化层后，再经过一个 33 的的卷积层，步长为 1，此时的感受野是？

13

12

11

10

2

以下是非马尔科夫过程的是？

独立增量过程

泊松过程

维纳过程

自回归过程

3

以下对 k-means 聚类算法解释正确的是？

能自动识别类的个数，随机挑选初始点为中心点计算

能自动识别类的个数，不是随机挑选初始点为中心点计算

不能自动识别类的个数，随机挑选初始点为中心点计算

不能自动识别类的个数，不是随机挑选初始点为中心点计算

4

某个二分类模型，在训练数据上表现很好，但是在验证数据上表现不佳，通常称这种问题为？

欠拟合

过拟合

样本不均衡

样本缺失

5

下列哪一个不是常用于回归建模问题的损失函数？

均方误差（MSE Loss）

交叉熵（Cross Entropy Loss）

均绝对误差（MAE Loss）

Huber Loss

6

下列哪一个不是LSTM（Long Short-Term Memory）的门控单元？

输出门

更新门

输入门

遗忘门

7

在卷积神经网络（CNN）中，使用 55 的卷积核对 500500 的图片求卷积，那么在输入层和卷积层之间一共有多少个参数需要训练？

10000

25

26

250000

8

在机器学习的分类模型中，评估模型预测效果的指标有准确率（Accuracy）、召回率（Recall）、精确率（Precision）、F1指标（F1 measure），下列属于Recall 指标的表达式为？

正确的正例样本数/样本中的正例样本数

提取出的正确样本数/总样本数

正确的正例样本数/预测为正例的样本数

PrecisionRecall2 / (Precision+Recall)

9

进行机器学习的时候，通常需要对数据进行降维处理，关于降维，以下说法错误的是？

降维可以节省存储空间

一般先使用非线性降维的方法，再使用线性降维的方法

降维可以去除冗余特征

降维从一定程度上可以防止模型过拟合

10

对于一个深度学习分类任务，如果权重初始化时所有变量都设置为 0，下面哪一个描述是正确的？

没有问题，深度学习拟合能力很强，可以正常训练得到结果

深度学习不会开始训练，因为没有梯度变化

深度学习可以训练，但所有的类别都会被识别为一类

以上说法都不对

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

相关内容

多模态理解

关注 3

200页pdf100+位作者19家单位！北京智源清华唐杰等发布《大模型路线图》论文，详述大模型的资源、模型、关键技术与应用

专知会员服务

129+阅读 · 2022年3月31日

【CIKM2021】基于等价共享内存的神经会话生成模型

专知会员服务

9+阅读 · 2021年9月22日

【KDD2021】TUTA: 通用表格预训练的树结构Transformer

专知会员服务

25+阅读 · 2021年8月22日

中文领域命名实体识别综述

专知会员服务

71+阅读 · 2021年8月20日

【KDD2021】识别不确定性的可靠文本分类

专知会员服务

26+阅读 · 2021年7月17日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

自由文本电子病历信息抽取综述

专知会员服务

39+阅读 · 2021年5月14日

多模态预训练模型简述

专知会员服务

113+阅读 · 2021年4月27日

文澜：超大规模多模态预训练模型！

专知会员服务

66+阅读 · 2021年3月21日

千亿参数！阿里清华联合推理史上最大中文多模态预训练器M6！

专知会员服务

42+阅读 · 2021年3月3日

AI人必追、炼丹者必备的基础，机器之心联合天池开启「春卷er」，邀你欢乐来一起卷

机器之心

0+阅读 · 2022年3月7日

北京内推 | 京东探索研究院自然语言处理组招聘NLP算法科学家/实习生

PaperWeekly

0+阅读 · 2022年1月10日

中文世界又多一个评测语言大模型能力的基准CUGE，覆盖17种主流NLP任务

机器之心

1+阅读 · 2021年12月31日

最大数据集、多任务覆盖，阿里达摩院发布首个大规模中文多模态评测基准MUGE

机器之心

0+阅读 · 2021年12月21日

开源开放 | 多模态实体链接数据集MELBench（CCKS2021）

开放知识图谱

2+阅读 · 2021年8月13日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

哈工大讯飞联合实验室发布中文XLNet预训练模型

哈工大SCIR

13+阅读 · 2019年8月20日

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

智能感知空间中基于QoX的上下文不确定性建模和处理关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于弱指导机器学习技术的中文领域本体非分类关系自动学习研究

国家自然科学基金

0+阅读 · 2013年12月31日

中文领域本体学习及半自动构建方法研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于翻译学习和核方法的中文模糊限制信息检测研究

国家自然科学基金

2+阅读 · 2012年12月31日

面向Web文本的属性和属性值知识获取方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

互联网环境下中文实体知识挖掘关键技术研究

国家自然科学基金

3+阅读 · 2012年12月31日

基于线裁剪的数字视觉信息处理技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

混排数字墨水文档智能处理方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

中文医学文本中关联信息提取方法研究

国家自然科学基金

2+阅读 · 2009年12月31日

Towards Arabic Sentence Simplification via Classification and Generative Approaches

Arxiv

0+阅读 · 2022年4月20日

Vision System of Curling Robots: Thrower and Skip

Arxiv

0+阅读 · 2022年4月20日

VSEGAN: Visual Speech Enhancement Generative Adversarial Network

Arxiv

0+阅读 · 2022年4月20日

P-Adapters: Robustly Extracting Factual Information from Language Models with Diverse Prompts

Arxiv

0+阅读 · 2022年4月19日

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

Arxiv

0+阅读 · 2022年4月17日

Shape-guided Object Inpainting

Arxiv

0+阅读 · 2022年4月16日

Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models

Arxiv

0+阅读 · 2022年4月16日

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval

Arxiv

0+阅读 · 2022年4月15日

Diagnosing and Fixing Manifold Overfitting in Deep Generative Models

Arxiv

0+阅读 · 2022年4月14日

CapsuleGAN: Generative Adversarial Capsule Network

Arxiv

10+阅读 · 2018年2月17日

VIP会员

1	在 CNN 网络中，某图经过核为 3x3，步长为 2 的卷积层，ReLU 激活函数层，BN 层，以及一个步长为 2，核为 22 的池化层后，再经过一个 33 的的卷积层，步长为 1，此时的感受野是？
	13	12	11	10
2	以下是非马尔科夫过程的是？
	独立增量过程	泊松过程	维纳过程	自回归过程
3	以下对 k-means 聚类算法解释正确的是？
	能自动识别类的个数，随机挑选初始点为中心点计算	能自动识别类的个数，不是随机挑选初始点为中心点计算	不能自动识别类的个数，随机挑选初始点为中心点计算	不能自动识别类的个数，不是随机挑选初始点为中心点计算
4	某个二分类模型，在训练数据上表现很好，但是在验证数据上表现不佳，通常称这种问题为？
	欠拟合	过拟合	样本不均衡	样本缺失
5	下列哪一个不是常用于回归建模问题的损失函数？
	均方误差（MSE Loss）	交叉熵（Cross Entropy Loss）	均绝对误差（MAE Loss）	Huber Loss
6	下列哪一个不是LSTM（Long Short-Term Memory）的门控单元？
	输出门	更新门	输入门	遗忘门
7	在卷积神经网络（CNN）中，使用 55 的卷积核对 500500 的图片求卷积，那么在输入层和卷积层之间一共有多少个参数需要训练？
	10000	25	26	250000
8	在机器学习的分类模型中，评估模型预测效果的指标有准确率（Accuracy）、召回率（Recall）、精确率（Precision）、F1指标（F1 measure），下列属于Recall 指标的表达式为？
	正确的正例样本数/样本中的正例样本数	提取出的正确样本数/总样本数	正确的正例样本数/预测为正例的样本数	PrecisionRecall2 / (Precision+Recall)
9	进行机器学习的时候，通常需要对数据进行降维处理，关于降维，以下说法错误的是？
	降维可以节省存储空间	一般先使用非线性降维的方法，再使用线性降维的方法	降维可以去除冗余特征	降维从一定程度上可以防止模型过拟合
10	对于一个深度学习分类任务，如果权重初始化时所有变量都设置为 0，下面哪一个描述是正确的？
	没有问题，深度学习拟合能力很强，可以正常训练得到结果	深度学习不会开始训练，因为没有梯度变化	深度学习可以训练，但所有的类别都会被识别为一类	以上说法都不对