◆杜霖喜欢冒险,曾孤身一人驾驶一辆二手柴油版宝马320D横穿了整个南非。
文| 铅笔道 记者 罗正臣
►导语
杜霖猛灌了几口红牛,瞪着泛着血丝的双眼,透过玻璃窗看了一眼数据工厂(以人力完成数据整理录入的工厂)的业务员们。凌晨两点,工厂内业务员的手指仍在键盘上翻飞,他挠了挠头,重新坐回桌子前敲起了代码。
那是2015年12月,杜霖的BasicFinder接了一个有关数据采集任务的大单。他们作为数据工厂上游,正在着手优化工厂工作流程管理系统。
BasicFinder是一家专注于大数据采集、清洗加标注的服务商,其主营产品是一套帮助连接客户与下游数据工厂的SaaS管理系统。在这套系统上,客户可以根据自身需求在沙盒(一种受限的安全环境系统)中提出任务定义需求,并发送给BasicFinder,公司匹配数据工厂后,工厂会将客户提供或自身采集的数据处理后,返还给客户以完成后续人工智能研发工作。
现阶段,公司已于2015年9月及今年3月分别完成天使轮及Pre-A轮融资,目前客户包括中国科学院、搜狗、云知声等B端企业。
注: 杜霖承诺文中数据无误,为其真实性负责,铅笔道已备份录音速记,为内容客观性背书。
2014年10月的某日下午,新疆库木塔格沙漠,太阳是那么毒,以狂沙为伴,地表温度让仅有的水汽都化作了虚影。
杜霖和朋友,一辆路虎卫士,一辆陆地巡洋舰,静静地停在垂直深度200米的“好汉锅”(该巨坑因形似一口铁锅且探险中难从中脱险故得名好汉锅)内,在他们旁边就是数年前环塔拉力赛中一辆价值上百万的赛车残骸。
因为赛车无法从深坑开出,尝试几次后,老板曾一气之下用一桶汽油将那辆极尽奢华的改装车付之一炬。
从“好汉锅”逃出生天只有一条路,车辆缺一点速度都会以失败告终。
◆BasicFinder合作的一家数据工厂内部
杜霖他们也遇到了同样的窘境,车开不出去了,接连几次尝试都以失败告终,而他们携带的水马上要没了。下午4点的太阳照射着沙粒,杜霖和朋友的嘴唇都已干裂,他们想到了用卫星电话呼救。
两人不服命,决定拼死一试,遂将陆地巡洋舰的空气滤芯摘除以加大引擎进气量。接着两人扔掉了大量繁重装备,冒着爆缸的危险,终于从那一条生命之路将车开了上去。跃出巨坑的一瞬间,两人不禁欢呼击掌,也许是这次共同死里逃生的经历,朋友决定为杜霖投资一笔数百万元的创业风投金。
彼时杜霖刚刚从南非归来不久,前两次工作经历虽已让他衣食无忧,却总想继续挑战生活。获得朋友给予的风投金后,他瞄准了大数据领域,决心再次创业。“大学上是上海交大ACM尖子班学院,学的是计算机,后来又从事了TMT领域风投工作,觉得创业还是靠近本专业一些好。”
但决心创业的他并没有从一开始就想好方向,只知道人工智能和机器学习领域会爆发出一波机会,所以他盯上了大数据领域。“将来人工智能的发展离不开大数据作为燃料,所以大数据一定在将来可以打出一片天。”
2015年杜霖注册了北京深度搜索科技有限公司,直到之后的一场饭局,他才摸索出了公司前进的方向。
杜霖早早来到朋友家等着这场陌生的饭局。朋友向杜介绍,饭局上另一人从事的是敲键盘生意。“我当时想,现在公司是缺程序员,但也不缺敲键盘的啊,他们做的事情又和我们无关,便没太在意。”
酒过三巡,菜过五味,那位陌生朋友邀请杜霖第二天去拜访敲字工厂,借着酒劲杜应了下来。第二天,两人驱车来到了位于上地的车间,打开厂房门一瞬间,杜霖愣了。
近千平米厂房内,有300余名身着白色大褂的员工在噼里啪啦敲打着手中的键盘。清一色老式的机械键盘,让啪啪的打字声组成了一首协奏曲,让杜霖听着入了迷。朋友告诉他,这个工厂是在以人力的方式,完成着文字数据整理和录入工作,订单来自世界各地,甚至有人在将400年前的古德国族谱敲入文档中。
大数据是人工智能这枚冉冉升起的火箭中的燃料,它为后续包括深度学习、机器视觉等多领域提供可供分析的素材。数据量越大,人工智能模型则会被训练得越加聪明。大数据作业可简单分为数据采集、清洗、标注、建模等几环流程,其中清洗、标注尤为困难。清洗与标注的质量,直接决定交付数据的质量和最后人工智能训练模型的结果,所以杜霖决定以此两环节切入市场。
就在一瞬间,杜霖猛地意识到,这家工厂可以转型成为大数据发动机。“如果他们能够人工标记、清洗数据,则会提高数据质量,从而提高数据使用者工作效率。”
杜霖随后想到了可以依托该数据加工体系,创建一套服务平台,将客户、数据加工厂撮合成一条链条,并完成标准化管理。“现阶段AI数据需求方无法在系统中准确定义数据处理任务,即使定义好了也没有一套高效的标记清洗工具,以至于数据无法通过最终的评鉴环节。”
数据工厂的存在则可以有效以人力去标记和清洗数据,保证最终评检环节过关率。而国外Amazon mTurk虽已有类似服务,却因为雇佣低质量兼职外包工作人员(1美分/Task),使数据无法完成最后评检环节。
想到此,杜霖决定研发一整套名为BasicFinder的大数据任务管理监控平台,并与朋友的数据工厂结成战略合作关系。“我们会将大数据从任务接收到交付的全流程划分成模块,让专职员工负责标记、清洗等工作。” 在数据作业的过程中,BasicFinder平台将会分级赋权给员工及管理者,方便他们对数据进行纠错和检验。
其系统工作流程如下:
2015年9月,杜霖正式带领团队研发BasicFinder系统,没想到这一套系统研发竟用了2年时间。
“这套系统难在应对各B端用户时,要耗费长时间沟通准确需求。” 而提高与各客户之间的沟通效率的方法,在于梳理出针对各行业的模板。
以公司为从视频标记人体骨骼点的项目为例,数据工厂会将客户提供的影像数据打散成帧,清洗掉没有人或不满足标记要求的人体图像,并将符合要求的人体图像完成Bounding Box标记。在完成Bounding Box标记后,数据工作人员会对筛选清洗后的数据实现14位标点处理,生成客户所需的最终数据。
“在这个过程中我们需要反复确认客户的需求,而制作出的通用模板可以满足同类型的标记任务。”当客户发布任务的时候,他们可以通过系统沙盒选择标记工具,根据需求可选择Bounding Box或轮廓等标记模式。
一套模板的建立时间从数日至数月不等,目前共15人的BasicFinder团队已梳理出100余套可用模板,帮助客户选择适合的作业模式及工具。
为高质量完成B端客户的任务,BasicFinder增加了业务员培训服务和提高了评检力度。公司会为数据工厂招收有一定电脑操作基础的大中专毕业生,并施行1个月的培训,最终以70%淘汰率为项目匹配工作业务员。“因为中国人口红利,以标记12万图像的Bounding Box任务为例,我们的价格比亚马逊便宜20%,比国外专业数据标记公司便宜50%以上。”
◆数据业务员在用20年前的机械键盘操作数据标记。
在任务最重的评检环节,BasicFinder则加入了抽检和客户检验等不同检验模式。“得益于产品的分级赋权功能,抽检员则可以设置不同抽检比例,将错误标记后反馈给管理员再由管理员反馈各业务员完成修改。”
据悉,现阶段BasicFinder在国内共拥有12家合作式数据工厂,共1000余位标记员。产品将于今年9月正式上线,公司已与搜狗、云知声、创新工场达成合作,并为乔治亚理工、加州大学伯克利分校、普林斯顿等美国大型实验室提供数据清洗标注服务。
杜霖表示,现阶段推广仍然靠口碑传播。公司旨在今年下半年产品发布后,以参加展会及地推的方式完成推广业务。
BasicFinder已于今年3月完成Pre-A轮融资,现阶段正进行A轮融资,计划融资2000~3000万元。
编辑 薛 婷 校对 吴晓宇
如需转载文章请联系铅笔道微信客服号铅笔道大芯芯(微信id:qianbidao2017)获取授权资质,否则我们将依法追究相关责任。
长按识别图中二维码,或点击“阅读原文”,即可报名金芯计划。