百度宣布,推出全球最大AI公开数据集计划BROAD!

2017 年 11 月 29 日 机器学习研究会

优质的机器学习质量离不开其背后的数据集,而一个优质数据集的公开,将为更多技术提供学习养分


11月16日,在2017百度世界大会 AI 技术与平台论坛上,百度3D视觉首席科学家杨睿刚宣布,推出百度 AI 公开数据集计划——BROAD(Baidu Research Open-Access Dataset),并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众公开。


                         

“ BROAD ”百度 AI 公开数据集计划(http://ai.baidu.com/broad)率先公开的三大数据集实力强劲、各有所长,咱们先看为敬!


 为更精准安全的自动驾驶助力 


室外场景理解数据集来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知,进而了解图片中所有像素的属性和来源,实现更精准、安全的自动驾驶。它是世界范围内第一个带像素级语义标签的室外3D视频。


2018年开始将陆续有自动驾驶汽车面世甚至小规模量产,想想还有点儿小期待呢。


 上万个精彩小视频 

 想怎么用就怎么用 


视频精彩片段数据集主要来源于爱奇艺精彩视频片段。


视频类型为综艺节目,目前囊括1500个长视频,视频总时长约1200小时,还从中手动收取出18000个精彩小视频,同时能够提供视频帧的图片特征序列,是全球首创的公开精彩片段标注数据集。


 百万文档和人工撰写的优质答案 

 拿去,都拿去 


随着越来越多的 AI 开发者和团队加入到人工智能的浪潮中来,如何让 AI 系统通过“机器阅读”的途径持续学习和进化成了重中之重。


首次亮相的百度阅读理解数据集 DuReader,是迄今为止规模最大的中文公开领域阅读理解数据集。


数据集基于真实应用需求,所有问题都来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和百度知道 UGC 文档,答案是基于问题与文档人工撰写生成的。


数据集标注了问题类型、实体和观点等丰富信息,弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题、100万文档及42万人工撰写的优质答案,并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑,加速相关技术和应用的发展。



 持续公开真实、大规模的数据集 

 我们在一起 


真实、海量无疑是“ BROAD ”百度 AI 公开数据集计划最好的形容词。作为全球最大的中文搜索引擎,百度积累了规模庞大、种类丰富的真实数据。


百度日趋成熟的 AI 生态体系,也为系统开发图像、文字等 AI 领域数据提供了有力的生态支持。


开源数据集的目标,就是希望可以将百度多年积累的优质、庞大数据公开出来,为认知层、感知层的 AI 技术提供学习驱动。



杨睿刚表示,这些数据是百度 AI 生态的真实数据,有些是首次发布的、有些是目前国际同类型公开数据集中最大的。


百度还计划在2018年推出供在校师生免费使用的 BROAD 云计算平台,共同推进 AI 技术的发展和落地。






转自:百度AI

完整内容请点击“阅读原文”

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
【CMU】基于图神经网络的联合检测与多目标跟踪
专知会员服务
57+阅读 · 2020年6月24日
【人大】大规模知识图谱补全技术的研究进展
专知会员服务
86+阅读 · 2020年5月2日
阿里巴巴达摩院发布「2020十大科技趋势」
专知会员服务
106+阅读 · 2020年1月2日
谷歌发布问答系统新语料,同时发布相关挑战赛
已删除
将门创投
4+阅读 · 2018年6月1日
DuReader:百度大规模的中文机器阅读理解数据集
全球人工智能
7+阅读 · 2018年5月8日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
Arxiv
13+阅读 · 2019年11月14日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关资讯
谷歌发布问答系统新语料,同时发布相关挑战赛
已删除
将门创投
4+阅读 · 2018年6月1日
DuReader:百度大规模的中文机器阅读理解数据集
全球人工智能
7+阅读 · 2018年5月8日
自然语言处理领域公开数据集
炼数成金订阅号
8+阅读 · 2018年4月19日
AI 竞赛 | 2018 机器阅读理解技术竞赛
AI研习社
7+阅读 · 2018年3月16日
相关论文
Arxiv
13+阅读 · 2019年11月14日
SlowFast Networks for Video Recognition
Arxiv
4+阅读 · 2019年4月18日
Arxiv
26+阅读 · 2018年9月21日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
7+阅读 · 2018年1月24日
Top
微信扫码咨询专知VIP会员