优质的机器学习质量离不开其背后的数据集,而一个优质数据集的公开,将为更多技术提供学习养分。
11月16日,在2017百度世界大会 AI 技术与平台论坛上,百度3D视觉首席科学家杨睿刚宣布,推出百度 AI 公开数据集计划——BROAD(Baidu Research Open-Access Dataset),并宣布首批室外场景理解、视频精彩片段、阅读理解3个数据集即日起对公众公开。
“ BROAD ”百度 AI 公开数据集计划(http://ai.baidu.com/broad)率先公开的三大数据集实力强劲、各有所长,咱们先看为敬!
为更精准安全的自动驾驶助力
室外场景理解数据集来源于百度自动驾驶事业部。该数据集试图将感知能力从物体级感知升级到像素级感知,进而了解图片中所有像素的属性和来源,实现更精准、安全的自动驾驶。它是世界范围内第一个带像素级语义标签的室外3D视频。
2018年开始将陆续有自动驾驶汽车面世甚至小规模量产,想想还有点儿小期待呢。
上万个精彩小视频
想怎么用就怎么用
视频精彩片段数据集主要来源于爱奇艺精彩视频片段。
视频类型为综艺节目,目前囊括1500个长视频,视频总时长约1200小时,还从中手动收取出18000个精彩小视频,同时能够提供视频帧的图片特征序列,是全球首创的公开精彩片段标注数据集。
百万文档和人工撰写的优质答案
拿去,都拿去
随着越来越多的 AI 开发者和团队加入到人工智能的浪潮中来,如何让 AI 系统通过“机器阅读”的途径持续学习和进化成了重中之重。
首次亮相的百度阅读理解数据集 DuReader,是迄今为止规模最大的中文公开领域阅读理解数据集。
数据集基于真实应用需求,所有问题都来源于百度搜索用户的真实问题,文档来自全网真实采样的网页文档和百度知道 UGC 文档,答案是基于问题与文档人工撰写生成的。
数据集标注了问题类型、实体和观点等丰富信息,弥补了现有主流数据集对于观点类问题覆盖不足的问题。首批发布的阅读理解数据集包含20万问题、100万文档及42万人工撰写的优质答案,并提供开源基线系统。DuReader 将为阅读理解技术研究提供有力支撑,加速相关技术和应用的发展。
持续公开真实、大规模的数据集
我们在一起
真实、海量无疑是“ BROAD ”百度 AI 公开数据集计划最好的形容词。作为全球最大的中文搜索引擎,百度积累了规模庞大、种类丰富的真实数据。
百度日趋成熟的 AI 生态体系,也为系统开发图像、文字等 AI 领域数据提供了有力的生态支持。
开源数据集的目标,就是希望可以将百度多年积累的优质、庞大数据公开出来,为认知层、感知层的 AI 技术提供学习驱动。
杨睿刚表示,这些数据是百度 AI 生态的真实数据,有些是首次发布的、有些是目前国际同类型公开数据集中最大的。
百度还计划在2018年推出供在校师生免费使用的 BROAD 云计算平台,共同推进 AI 技术的发展和落地。
转自:百度AI
完整内容请点击“阅读原文”