百度宣布，推出全球最大AI公开数据集计划BROAD！

2017 年 11 月 29 日 机器学习研究会

优质的机器学习质量离不开其背后的数据集，而一个优质数据集的公开，将为更多技术提供学习养分。

11月16日，在2017百度世界大会 AI 技术与平台论坛上，百度3D视觉首席科学家杨睿刚宣布，推出百度 AI 公开数据集计划——BROAD（Baidu Research Open-Access Dataset），并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众公开。

“ BROAD ”百度 AI 公开数据集计划（http://ai.baidu.com/broad）率先公开的三大数据集实力强劲、各有所长，咱们先看为敬！

为更精准安全的自动驾驶助力

室外场景理解数据集来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知，进而了解图片中所有像素的属性和来源，实现更精准、安全的自动驾驶。它是世界范围内第一个带像素级语义标签的室外3D视频。

2018年开始将陆续有自动驾驶汽车面世甚至小规模量产，想想还有点儿小期待呢。

上万个精彩小视频

想怎么用就怎么用

视频精彩片段数据集主要来源于爱奇艺精彩视频片段。

视频类型为综艺节目，目前囊括1500个长视频，视频总时长约1200小时，还从中手动收取出18000个精彩小视频，同时能够提供视频帧的图片特征序列，是全球首创的公开精彩片段标注数据集。

百万文档和人工撰写的优质答案

拿去，都拿去

随着越来越多的 AI 开发者和团队加入到人工智能的浪潮中来，如何让 AI 系统通过“机器阅读”的途径持续学习和进化成了重中之重。

首次亮相的百度阅读理解数据集 DuReader，是迄今为止规模最大的中文公开领域阅读理解数据集。

数据集基于真实应用需求，所有问题都来源于百度搜索用户的真实问题，文档来自全网真实采样的网页文档和百度知道 UGC 文档，答案是基于问题与文档人工撰写生成的。

数据集标注了问题类型、实体和观点等丰富信息，弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题、100万文档及42万人工撰写的优质答案，并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑，加速相关技术和应用的发展。

持续公开真实、大规模的数据集

我们在一起

真实、海量无疑是“ BROAD ”百度 AI 公开数据集计划最好的形容词。作为全球最大的中文搜索引擎，百度积累了规模庞大、种类丰富的真实数据。

百度日趋成熟的 AI 生态体系，也为系统开发图像、文字等 AI 领域数据提供了有力的生态支持。

开源数据集的目标，就是希望可以将百度多年积累的优质、庞大数据公开出来，为认知层、感知层的 AI 技术提供学习驱动。

杨睿刚表示，这些数据是百度 AI 生态的真实数据，有些是首次发布的、有些是目前国际同类型公开数据集中最大的。

百度还计划在2018年推出供在校师生免费使用的 BROAD 云计算平台，共同推进 AI 技术的发展和落地。

转自：百度AI

完整内容请点击“阅读原文”

登录查看更多

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

【人大】大规模知识图谱补全技术的研究进展

专知会员服务

87+阅读 · 2020年5月2日

阿里巴巴达摩院发布「2020十大科技趋势」

专知会员服务

108+阅读 · 2020年1月2日

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

专知会员服务

124+阅读 · 2019年12月10日

《全球人工智能发展白皮书》（2019版）发布，94页PDF，德勤科技编

专知会员服务

230+阅读 · 2019年11月8日