章磊希望把”星尘数据“做成开源工具平台,数据取之于众,开放于众。
文| 铅笔道 记者 许梦
“近日,“星尘数据”创始人章磊向铅笔道透露,项目于今年1月完成1000万Pre-A轮融资。本轮融资主要用于数据模型研发。
“星尘数据”是一家面向机器学习模型和训练数据的人工智能平台,提供数据采集和标注的众包服务。其平台通过数据运维处理系统,将数据标注精度提高到 99% ;并用智能标注工具去辅助人工,从而降低数据服务成本,节省了近1/3的时间成本。在“星尘数据”的模式中,人工标注在70%左右,机器占30%。平台用户(数据标注人员)超过20万人。
2017年8月,铅笔道曾对“星尘数据”做过报道《天使湾领投 这家数据服务公司核心成员来自华尔街硅谷 标注准确度99.9%》。目前,公司已覆盖图像/人脸识别、文本分析、语音识别、无人车等各类AI应用场景的数据标注,服务客户数十家,包括百度、京东、小米等。
注:章磊承诺文中数据无误,为内容真实性负责。铅笔道作客观真实记录,已备份速记录音。
章磊认为,在人工智能领域,算法+数据=机器学习模型。除了日渐完善丰富的算法理论,大量精准的数据已成为深度学习模型的关键。
章磊曾因找不到合适的数据标注服务商,自己创办一家数据公司,为人工智能公司提供深度学习所需要的数据标注、数据收集、数据交易等服务。
刚开始时,章磊和团队一度认为B2B服务中,维护好客户关系是重中之重。但是他们在大量的数据业务服务中发现,客户在采购过程中,大多会将成本作为第一考虑因素,最后通过比价、询价来决定签约哪家服务商。因此,真正核心竞争力在于降低数据服务成本。
控制成本意味着团队要从管理、人员、技术上严格把控。由于大量数据需要很多人力来进行具体数据标注服务,章磊及团队使用运维系统,管控数据和人员的全工作周期。数据方面,系统可以对数据的标注和审核以及完全状态的准确度进行验证,并保证准确率在99%以上;人员方面,系统会从上岗、培训、考核、实操等阶段实时进行检测。
比如常规准确率为为95%的系统,在常规情况下,只有通过增加更多轮次的检测来提升精度,这就意味着消耗更多的成本。一些特殊项目,人力需求可能会因为超高精度的需求而翻几倍。平台通过动态准确度计算以及多用户渐进式标注等方法来解决这一问题。
图片标注流程控制展示。
技术上,“星尘数据”有几十类工具模板以满足常见的机器学习的数据标注、收集的工作,包括图像、视频、音频以及数据收集等。
除了人工、机器处理数据外,“星尘数据”有一个辅助标注的模块,通过人机互动的方式辅助数据加工以降低人力成本,可节省1/3的时间成本。部分标注可用计算机逐步调整,目前团队正在开发各种类型的数据标注辅助工具。其平台上人工标注占70%左右,机器标注占30%。在前期严格控制成本的基础上,以图片为例,平台上一张图的数据标注价格最低5分钱。
机器辅助标注效果图
此外,“数据黄牛”也是让章磊和他的团队非常头疼的问题。在数据标注行业,分包现象非常严重,“数据黄牛”将任务逐层转包下去。数据服务公司支出高昂成本,用户付出大量劳动后却拿到较少报酬,而“二道贩子”轻松赚到差价。因此,团队和渠道商合作,通过相应的激励机制,吸引用户直接到“星尘数据”平台完成任务,没有中间商,平台直接向用户支付报酬。目前,平台用户已超过20万。
数据标注行业用户流动性很大,“对于数据公司而言,百万级注册用户固然重要,但更有价值的是一定质量的用户长期在一个平台做数据处理,这就够了。”为增强平台上用户粘性,完成用户快速裂变,章磊及团队借鉴游戏玩法,设计了类似于“通关游戏”激励机制,不仅有现金奖励,还设置了经验值。用户完成任务越多、等级越高,奖励越多,就像玩游戏一样完成任务。
无人车、安防、人脸识别、在线教育、电商、工业质量检测、图片收集、音频收集等行业,“星尘数据”都有涉及,服务客户也从最初的几家拓展到几十家,其中包括百度、小米、京东等。值得一提的是,百度无人车Apollo的外形数据标注就是由星尘数据提供。
“星尘数据”团队有20多人,工程师也从原来6人拓展到十几人。其核心成员来自于世界银行、硅谷、CMU、清华、MIT、百度idl等公司或机构,长期从事数据分析和建模工作。
章磊向铅笔道透露,“星尘数据”已于今年1月完成1000万Pre-A轮融资,资金主要用于数据模型研发。下一步,章磊团队计划开发一款数据开源工具,帮助AI从业者免费获得数据。
编辑 | 付文学 校对 | 程用杰
优质项目"融资首发绿色通道":创业者请加微信shoujiyezi5415,务必注明项目名称;或发送BP至xueting@pencilnews.cn。
如需转载文章请联系铅笔道微信客服号铅笔道大芯芯(微信id:qianbidao2017)获取授权资质,否则我们将依法追究相关责任。
点击“阅读原文”,即可查看铅笔道DATA详细介绍。