让炼丹师不再为数据集发愁,这家公司创建了一个AI公开数据集平台

2021 年 1 月 7 日 机器之心

机器之心发布

机器之心编辑部

初创公司格物钛希望通过在公开数据集社区和数据管理工具领域的创新,从而推动数据定义软时代这一新时代背景下的全球创新,破局数据孤岛,赋能AI基础设施建设。


数据定义软件时代到来

回顾互联网发展历史,过去 30 年是开源软件生产数据的时代,这个时代诞生了 Google、Facebook、阿里、腾讯和字节跳动这样的互联网巨头,他们都在用软件生产海量的数据。但是不难发现这一趋势从近几年开始悄然发生了变化,实际上前 30 年的数字化变革已经产生了大量用于算法训练的非结构化数据,如何存储、管理以及利用现有的数据来完成更加高效的算法迭代和应用开发才是 AI 开发者在未来 30 年需要面对和解决的课题。伴随着 Snowflake 这样的数据处理软件公司进入了人们的视野,我们看到数据定义软件的时代已经到来。而初创公司格物钛希望通过在公开数据集社区和数据管理工具领域的创新来推动这一新时代背景下的全球创新。

破局「数据孤岛」成为关键

高质量的数据是支持 AI 算法的基础。以往数据大多以孤岛的形式存在,数据之间却并没有产生连接。不同企业、机构之间的数据标准规范并不统一,数据质量也参差不齐,就算进行共享也依然困难重重。伴随着各类 AI 应用场景落地的技术难点逐渐浮出水面,以无人驾驶领域为例,许多驾驶场景具有稀缺性,仅凭一家之力构建包含所有的交通场景的数据集将消耗巨额的数据采集成本,并且很难在短时间内一步到位,AI 企业认识到打破数据孤岛走向合作开放将是未来谋求发展的必然选择。

近年来行业中不少企业和高校研究机构已经陆续发布公开数据集,将自身积累的优质、庞大数据公开出来,为认知层、感知层的 AI 技术提供学习驱动,把更多的数据、算力、技术汇集在一起,帮助各领域的数据释放出其应有价值,为人工智能的产业化落地提供关键基础。

格物钛公开数据集平台


以开源数据集平台赋能 AI 基础设施建设

随着行业参与者们对数据的态度越来越开放,很多公开数据集应运而生。但是由于缺乏统一的行业规范与标准,用户搜索下载和使用这些公开数据集存在诸多困难。格物钛看到这一行业痛点后随即发起了 “寻集令” 项目的号召,希望发挥自己在数据管理上的技术优势,建立 AI 公开数据集平台。招募自动驾驶、互联网泛娱乐、新零售、智慧城市和在线教育等多领域的合作伙伴加入,打造最受开发者欢迎的公开数据集社区,为企业、机构和个人提供高质量的真值数据、推动人工智能行业场景落地。

格物钛公开数据集平台自去年九月份上线以来,用户数实现了 13 倍的爆发式增长。目前已有涵盖 8 个领域的 16 家企业与我们达成了战略合作,他们将会在格物钛公开数据集平台上开源自有的数据,赋能 AI,加速人工智能行业的快速落地和科研创新。

格物钛 CEO 崔运凯表示:“寻集令是一个永远不会终止的倡议。如果你是一个企业的决策者,如果你有大量的数据,还不知道如何发掘它的价值,或者还想探寻如何更好使用它们的创意,也许是时候开放它们其中的一小部分,给这个社区中的创新者们,让他们运用他们的智慧,来发现这其中无限的价值。这个价值被发现的过程,往往带来的是双赢。社区的力量是强大的,Graviti 希望今天的分享和倡议,可以激励你参与到我们的行动中来,因为只有我们携起手来,才能一起定义未来。” Graviti 公开数据集平台下一阶段还将持续投入研发,为人工智能企业和各类学术研究机构提供专业的一站式公开数据集发布及运营支持,同时完善社区功能为用户提供问题与需求的反馈渠道,有效解决用户提出的各类数据集需求。未来格物钛也希望可以携手更多 AI 生态的各类伙伴,一起用心去开源,建设人工智能数据领域的高地。

寻集令全球合作伙伴一览

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

登录查看更多
0

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
多样性算力技术愿景白皮书
专知会员服务
82+阅读 · 2021年4月29日
专知会员服务
62+阅读 · 2021年4月16日
专知会员服务
140+阅读 · 2021年3月13日
《人工智能计算中心白皮书》,43页pdf
专知会员服务
152+阅读 · 2021年3月5日
基于区块链的数据透明化:问题与挑战
专知会员服务
20+阅读 · 2021年3月4日
【腾讯IDC】数实共生:未来经济白皮书2021,81页pdf
专知会员服务
74+阅读 · 2021年1月24日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【5G】首家5G+智慧钢铁企业揭秘
产业智能官
6+阅读 · 2020年7月28日
【中台】腾讯的中台逻辑
产业智能官
14+阅读 · 2019年7月22日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
PPTV创始人姚欣:人工智能到底怎么赚钱?
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Equalization Loss for Long-Tailed Object Recognition
Arxiv
5+阅读 · 2020年4月14日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
7+阅读 · 2018年4月24日
Arxiv
3+阅读 · 2018年3月5日
VIP会员
相关VIP内容
多样性算力技术愿景白皮书
专知会员服务
82+阅读 · 2021年4月29日
专知会员服务
62+阅读 · 2021年4月16日
专知会员服务
140+阅读 · 2021年3月13日
《人工智能计算中心白皮书》,43页pdf
专知会员服务
152+阅读 · 2021年3月5日
基于区块链的数据透明化:问题与挑战
专知会员服务
20+阅读 · 2021年3月4日
【腾讯IDC】数实共生:未来经济白皮书2021,81页pdf
专知会员服务
74+阅读 · 2021年1月24日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
相关资讯
【5G】首家5G+智慧钢铁企业揭秘
产业智能官
6+阅读 · 2020年7月28日
【中台】腾讯的中台逻辑
产业智能官
14+阅读 · 2019年7月22日
企业数据AI化战略:从数据中台到AI中台
36大数据
11+阅读 · 2019年2月18日
800万中文词,腾讯AI Lab开源大规模NLP数据集
黑龙江大学自然语言处理实验室
10+阅读 · 2018年10月26日
PPTV创始人姚欣:人工智能到底怎么赚钱?
资源|各领域公开数据集
七月在线实验室
5+阅读 · 2017年8月25日
Top
微信扫码咨询专知VIP会员