沙漠探险命悬一线却获风投 他凭1000业务员手持老键盘人工清洗标注数据

2017 年 8 月 20 日 铅笔道 不说谎的创业媒体

杜霖喜欢冒险,曾孤身一人驾驶一辆二手柴油版宝马320D横穿了整个南非。


| 铅笔道 记者 罗正臣


导语


杜霖猛灌了几口红牛,瞪着泛着血丝的双眼,透过玻璃窗看了一眼数据工厂(以人力完成数据整理录入的工厂)的业务员们。凌晨两点,工厂内业务员的手指仍在键盘上翻飞,他挠了挠头,重新坐回桌子前敲起了代码。


那是201512月,杜霖的BasicFinder接了一个有关数据采集任务的大单。他们作为数据工厂上游,正在着手优化工厂工作流程管理系统。


BasicFinder是一家专注于大数据采集、清洗加标注的服务商,其主营产品是一套帮助连接客户与下游数据工厂的SaaS管理系统。在这套系统上,客户可以根据自身需求在沙盒(一种受限的安全环境系统)中提出任务定义需求,并发送给BasicFinder,公司匹配数据工厂后,工厂会将客户提供或自身采集的数据处理后,返还给客户以完成后续人工智能研发工作。


现阶段,公司已于20159月及今年3月分别完成天使轮及Pre-A轮融资,目前客户包括中国科学院、搜狗、云知声等B端企业。



: 杜霖承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。

死里逃生获风投


201410月的某日下午,新疆库木塔格沙漠,太阳是那么毒,以狂沙为伴,地表温度让仅有的水汽都化作了虚影。


杜霖和朋友,一辆路虎卫士,一辆陆地巡洋舰,静静地停在垂直深度200米的好汉锅(该巨坑因形似一口铁锅且探险中难从中脱险故得名好汉锅)内,在他们旁边就是数年前环塔拉力赛中一辆价值上百万的赛车残骸。


因为赛车无法从深坑开出,尝试几次后,老板曾一气之下用一桶汽油将那辆极尽奢华的改装车付之一炬。


好汉锅逃出生天只有一条路,车辆缺一点速度都会以失败告终。


BasicFinder合作的一家数据工厂内部


杜霖他们也遇到了同样的窘境,车开不出去了,接连几次尝试都以失败告终,而他们携带的水马上要没了。下午4点的太阳照射着沙粒,杜霖和朋友的嘴唇都已干裂,他们想到了用卫星电话呼救。


两人不服命,决定拼死一试,遂将陆地巡洋舰的空气滤芯摘除以加大引擎进气量。接着两人扔掉了大量繁重装备,冒着爆缸的危险,终于从那一条生命之路将车开了上去。跃出巨坑的一瞬间,两人不禁欢呼击掌,也许是这次共同死里逃生的经历,朋友决定为杜霖投资一笔数百万元的创业风投金。


彼时杜霖刚刚从南非归来不久,前两次工作经历虽已让他衣食无忧,却总想继续挑战生活。获得朋友给予的风投金后,他瞄准了大数据领域,决心再次创业。大学上是上海交大ACM尖子班学院,学的是计算机,后来又从事了TMT领域风投工作,觉得创业还是靠近本专业一些好。


但决心创业的他并没有从一开始就想好方向,只知道人工智能和机器学习领域会爆发出一波机会,所以他盯上了大数据领域将来人工智能的发展离不开大数据作为燃料,所以大数据一定在将来可以打出一片天。


2015年杜霖注册了北京深度搜索科技有限公司,直到之后的一场饭局,他才摸索出了公司前进的方向。

人力标记数据及清洗


杜霖早早来到朋友家等着这场陌生的饭局。朋友向杜介绍,饭局上另一人从事的是敲键盘生意。我当时想,现在公司是缺程序员,但也不缺敲键盘的啊,他们做的事情又和我们无关,便没太在意。


酒过三巡,菜过五味,那位陌生朋友邀请杜霖第二天去拜访敲字工厂,借着酒劲杜应了下来。第二天,两人驱车来到了位于上地的车间,打开厂房门一瞬间,杜霖愣了。


近千平米厂房内,有300余名身着白色大褂的员工在噼里啪啦敲打着手中的键盘。清一色老式的机械键盘,让啪啪的打字声组成了一首协奏曲,让杜霖听着入了迷。朋友告诉他,这个工厂是在以人力的方式,完成着文字数据整理和录入工作,订单来自世界各地,甚至有人在将400年前的古德国族谱敲入文档中。


大数据是人工智能这枚冉冉升起的火箭中的燃料,它为后续包括深度学习、机器视觉等多领域提供可供分析的素材。数据量越大,人工智能模型则会被训练得越加聪明。大数据作业可简单分为数据采集、清洗、标注、建模等几环流程,其中清洗、标注尤为困难。清洗与标注的质量,直接决定交付数据的质量和最后人工智能训练模型的结果,所以杜霖决定以此两环节切入市场。


就在一瞬间,杜霖猛地意识到,这家工厂可以转型成为大数据发动机如果他们能够人工标记、清洗数据,则会提高数据质量,从而提高数据使用者工作效率。


杜霖随后想到了可以依托该数据加工体系,创建一套服务平台,将客户、数据加工厂撮合成一条链条,并完成标准化管理现阶段AI数据需求方无法在系统中准确定义数据处理任务,即使定义好了也没有一套高效的标记清洗工具,以至于数据无法通过最终的评鉴环节。


数据工厂的存在则可以有效以人力去标记和清洗数据,保证最终评检环节过关率。而国外Amazon mTurk虽已有类似服务,却因为雇佣低质量兼职外包工作人员(1美分/Task),使数据无法完成最后评检环节。


想到此,杜霖决定研发一整套名为BasicFinder的大数据任务管理监控平台,并与朋友的数据工厂结成战略合作关系我们会将大数据从任务接收到交付的全流程划分成模块,让专职员工负责标记、清洗等工作。在数据作业的过程中,BasicFinder平台将会分级赋权给员工及管理者,方便他们对数据进行纠错和检验。


其系统工作流程如下:



20159月,杜霖正式带领团队研发BasicFinder系统,没想到这一套系统研发竟用了2年时间。

全国12家工厂

 

这套系统难在应对各B端用户时,要耗费长时间沟通准确需求。而提高与各客户之间的沟通效率的方法,在于梳理出针对各行业的模板。


以公司为从视频标记人体骨骼点的项目为例,数据工厂会将客户提供的影像数据打散成帧,清洗掉没有人或不满足标记要求的人体图像,并将符合要求的人体图像完成Bounding Box标记。在完成Bounding Box标记后,数据工作人员会对筛选清洗后的数据实现14位标点处理,生成客户所需的最终数据。


在这个过程中我们需要反复确认客户的需求,而制作出的通用模板可以满足同类型的标记任务。当客户发布任务的时候,他们可以通过系统沙盒选择标记工具,根据需求可选择Bounding Box或轮廓等标记模式。


一套模板的建立时间从数日至数月不等,目前共15人的BasicFinder团队已梳理出100余套可用模板,帮助客户选择适合的作业模式及工具。


为高质量完成B端客户的任务,BasicFinder增加了业务员培训服务和提高了评检力度。公司会为数据工厂招收有一定电脑操作基础的大中专毕业生,并施行1个月的培训,最终以70%淘汰率为项目匹配工作业务员。因为中国人口红利,以标记12万图像的Bounding Box任务为例,我们的价格比亚马逊便宜20%,比国外专业数据标记公司便宜50%以上。


数据业务员在用20年前的机械键盘操作数据标记。


在任务最重的评检环节,BasicFinder则加入了抽检和客户检验等不同检验模式得益于产品的分级赋权功能,抽检员则可以设置不同抽检比例,将错误标记后反馈给管理员再由管理员反馈各业务员完成修改。


据悉,现阶段BasicFinder在国内共拥有12家合作式数据工厂,共1000余位标记员。产品将于今年9月正式上线,公司已与搜狗、云知声、创新工场达成合作,并为乔治亚理工、加州大学伯克利分校、普林斯顿等美国大型实验室提供数据清洗标注服务。


杜霖表示,现阶段推广仍然靠口碑传播。公司旨在今年下半年产品发布后,以参加展会及地推的方式完成推广业务。


BasicFinder已于今年3月完成Pre-A轮融资,现阶段正进行A轮融资,计划融资2000~3000万元。


编辑   校对 吴晓宇

 

如需转载文章请联系铅笔道微信客服号铅笔道大芯芯(微信id:qianbidao2017)获取授权资质,否则我们将依法追究相关责任。


 阅读完莫急走
我是本文作者罗正臣,一只关注人工智能、大数据领域的北京土著,相关行业创业者或对口投资人,可加微信聊聊: 497248875 (加好友请注明公司、职位、事由哦)


长按识别图中二维码,或点击“阅读原文”,即可报名金芯计划。

登录查看更多
0

相关内容

CFinder是一种基于全面连接搜素方法(the Clique Percolation Method,CPM)的网络秘密集团模块搜索和可视化分析软件。它能够在网络中寻找指定大小的全连集,并通过全连接集中共享的节点和边构建更大的节点集团。
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
专知会员服务
123+阅读 · 2020年3月26日
2019中国硬科技发展白皮书 193页
专知会员服务
81+阅读 · 2019年12月13日
AI上色对比人工调色 :结果令人难以置信
网易智能菌
8+阅读 · 2019年4月25日
人工智能背后的“人工”
i黑马
5+阅读 · 2018年10月14日
那个要让程序员财务自由的李奥,招人了!
交易门
3+阅读 · 2018年7月13日
百度也跨界了? 腾讯阿里:我觉得OK
FinTech前哨
6+阅读 · 2017年10月23日
微软洪小文:AI 还是个小学生,资本请慎重!
EGONetworks
4+阅读 · 2017年9月6日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Arxiv
7+阅读 · 2018年1月30日
Arxiv
8+阅读 · 2018年1月30日
VIP会员
相关VIP内容
商业数据分析,39页ppt
专知会员服务
160+阅读 · 2020年6月2日
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
专知会员服务
123+阅读 · 2020年3月26日
2019中国硬科技发展白皮书 193页
专知会员服务
81+阅读 · 2019年12月13日
Top
微信扫码咨询专知VIP会员