AI落地:被忽视的数据标注、最隐秘的数据标注

2019 年 9 月 4 日 智东西

看点:AI在改变人类,而数据则在改变AI。

人类创造了AI,但AI也同时改变了人类。 从AlphaGo 初出茅庐大杀四方,到Zero绝迹江湖却搅起围棋行业的腥风血雨开始,人们对于这个聚光灯下的行业所抱有的期望就一直在不断上升。
而将目光转移到聚光灯外,作为AI技术的底层支撑,数据采集与标注相较算法研究、数据挖掘等AI领域的其他工种,似乎一直以来都是被边缘化乃至低视的一个存在。
尽管,在通常情况下,工投喂数据的质量往往直接影响着智能的精度
而摘掉廉价劳动力的帽子,我们会发现,在被忽视的角落之中,AI数据服务行业也在进行着日新月异的变化。
小到用数据爬虫抓取互联网现存数据,并进行拉框,大到根据用户定制化的硬件以及场景需求,去完成数据的采集与多维度数据标注。这个行业,如今正朝着专业化、细分化、场景化的方向不断演进 而在这一过程中,一批诸如百度数据众包、云测数据等更加专业、更具备实践经验的团队与企业也正应运而出成为行业中的佼佼者
他们的诞生一方面是这个行业前行的见证者,同时也是开拓者。
那么他们是如何成长起来的?
这个一直被忽略、被边缘化的行业究竟又发展到了哪个阶段?
最后,从他们的角度出发,AI又经历了怎样的发展与变迁?
通过深度走访AI数据服务行业的头部玩家云测数据以及多位AI数据服务行业从业者,了解他们的故事与对这个行业的看法,我们得以看到数据行业最真实的一面,也进一步从另一个角度看到了AI发展过程之中最隐秘的变化与成长。

爆发初始:最基础的数据服务,被忽视的数据服务

作为谷歌首席架构师、谷歌人工智能团队谷歌大脑(Google Brain)的负责人,Jeff Dean曾在公开场合这样强调数据对于人工智能算法的重要性:
以上横轴为数据量,纵轴为准确率,蓝色以及绿色线条分别代表深度学习以及传统算法。 根据Jeff Dean的预判,随着数据规模的不断扩大,未来深度学习算法的精度也将不断提升。
也就是说,处在技术大爆发与数字洪水阶段,谁掌握了更多的数据、更精准的数据,那么谁的算法精度也就会更领先一步
但一直以来,在AI的发展中,数据的采集与标注却始终在有意或者无意的被忽视着,乃至被边缘化。
但是在云测数据的总经理贾宇航看来,对于算法落地来说,“数据不仅充当饲料,同时也在逐渐充当婴儿的奶粉,运动员的优质蛋白一样,拥有了就可以更好的成长具备竞争力”而想要为算法提供足够优质的婴儿奶粉,并没有那么容易。
举个简单的例子,如果只是人脸检测,那么开源数据集或平台众包就可以很快满足需求。 但随着技术要求的提升,AI不仅仅是做人脸检测,而是视线追踪、或是微表情检测。 很显然,这类需求很难通过互联网或者众包用户采集完成。
那么如何解决这个问题? 或许只有更专业的数据采集与标注团队才能完成这一任务。
也正是基于这样的市场需求, 2017年,云测旗下AI数据服务品牌云测数据成立 基于此前对于To B行业的深刻理解以及专业 化的团队搭建,云测数据成立不久就跻身国内一流的AI数据服务解决方案提供商。
那么云测数据如何解决上面所说的问题?
贾宇航表示,云测数据的办法是自建数据采集基地,搭建专门的场景实验室 目前,云测数据已经有了200多人的研发与产品经理,以及近千人的数据标注团队,在规模以及质量上都处在行业前列。
以多角度多姿态的动作采集为例,贾宇航表示,云测数据专门在横店建了一个数据采集基地,根据客户订单需求,进行特定动作、表情和表情的捕捉。
当然,这些不仅是有趣或者单一客户需求所驱动的成果,而是整个AI数据服务行业从粗放的劳动密集型时代走向精耕细作所必须的过程。
走到如今,AI数据服务行业已经迈向场景化与复杂化,而以众包用户进行数据采集的服务形态,已经不能满足AI企业往下一个阶段进化的需求
贾宇航解释,现如今,一个完整的数据服务工作流程是由可行性评估到执行,到审核,再到交付四个环节组成。 这中间,如何分工,审核与执行之间又该如何形成反馈闭环,怎样能够提升工作效率都是需要经验摸索以及成本投入的。
以云测数据为例,在进行数据服务时,云测会有专门的研发投入以及不少于350个小时的团队培训流程。
通过研发团队搭建的协同分工流程平台以及诸如快速框选、快速选点等小工具的开发,可以将数据采集以及标注的速度与效率成倍的提升。以法令纹的采集标注为例,有时候客户不仅需要将其准确的框选出来,还需要将其进行均匀的四点等分,如果单纯的通过手工作业,那么无论效率还是精确度都将受到极大的影响。 但是通过工具的开发,就可以在框选之后,快速的进行自动等分标注。
而针对特定的用户需求,云测还搭建了专门的场景实验室,可以基于客户算法模型定制化搭建采集场景,以达到覆盖尽可能多的实际场景及边际场景的目的,保证采集数据契合算法模型,为客户提供高精度的采集数据。

从网络爬取到场景化采集,数据服务行业的三场战事

在AI的落地中,数据服务行业也在不断自我演进,同时也见证与反哺着下游AI企业的成长与变化。
如果回顾数据服务行业这二十年来的发展,我们会发现在这个行业一定经历了三大阶段的战事,每一场中都有其代表性的玩家出现,每一阶段,也都印证着AI行业发展的脚步。
第一阶段,可以简单概括为免费阶段。
这一时期,AI也基本还停留在初步的实验室阶段,对于数据本身的精确度要求并不算高。 比如有企业需要人脸数据,只要把来自社交网络或者对搜索引擎图片进行简单的爬取就能够满足基本的需求。
进一步演化出,以ImageNet等开源数据集为代表,企业不再需要自己爬取网络数据,而是直接使用网上开源的现成数据,进而可以减少很多时间以及精力成本。 但是这种数据偏通用,无法满足定制化需求。 AI的发展也在这一时期进入一个小高潮,但是距离产业化应用却还有一定距离。
第二阶段,数据服务行业开始有了初步的商业化,众包成为了这一阶段行业的代表性服务形态
但是相应的,专业性也成为这一时期行业的代表性问题。 首先,是众包用户无法满足客户对于诸如疲劳驾驶检测、情绪捕捉等方面的复杂需求; 其次,对于客户需求的理解方面,众包用户由于没有经受专业的训练,可能会出现质量参差不齐或者理解不到位的情况。 因此整体所能做的事情相对简单,无法满足AI企业往下一个阶段进化时的数据需求。
发展至如今,数据服务已经走入第三阶段这一时期,AI落地已经成为行业发展的一大重要阶段,AI+5G+IoT催化了数据大爆炸,带来了广阔的行业机遇,相应的数据服务也走入了场景化以及精细化时代。
相对应的,云测数据对自身的定位也进一步明确,针对数据的安全性、定制化和精细化提出了更高要求。
针对高安全性,贾宇航总结,云测数据针对客户“可复用的只有经验,但绝不包括数据 ”对此,云测数据建立了一套数据隔离机制: 可以将数据封闭在标注平台之内,全程采取专业化设备,以保证数据的采集、标注者只有数据的操作权,但是没有拷贝、转移的权利。
而针对场景化,云测数据目前在华东、华北、华南都设有数据交付中心和数据采集基地,可以满足方言采集,特定目标采集等定制化客户需求。
最后是精细化,据贾宇航表示,在数据采集环节,云测数据可以通过定制化场景搭建、专业人员实战来满足用户特定需求; 而在数据标注环节,则会通过对员工培训以及专门开发例如法令纹标注等专业化工具,以使得框选、标注的精度进一步提升。
而随着场景化、细分化的不断发展,对客户进行专家式服务也成了当前行业发展的一大特色。
贾宇航向我们讲述了一个案例,曾经有一家自动驾驶企业前来云测数据,表示想要针对自动驾驶场景,对激光雷达以及摄像头数据进行采集标注。 客户要求将摄像头拍到的车辆,在激光雷达的捕捉的数据中全部标记出来。
但实际上,对于激光雷达捕捉到的数据中,10个点以下的内容,实际上在标注的时候可以直接忽略,否则反而会影响最终算法的识别精度。 这也就是专业化的数据标注团队,对于客户需求的进一步增益。

换一个角度看人工智能,细分、多模态、专业化

我们不难发现,作为AI的基石,AI数据服务的发展其实也正从一个独特的角度,对AI的发展形成侧写。
从云测数据的角度来看,贾宇航发现当前的AI发展出现了三大特征: 细分化、多模态以及专业化,相应的,对于AI数据服务行业也形成了一定的影响与方向指引。
首先是细分化,当前AI已经进入技术落地阶段,行业发展的主力已经由此前的技术流AI专家主导变成了行业专家技术流AI专家共同合作完成技术落地 他们一方面拥有着丰富的细分领域行业经验,另一方面又具备着深厚的技术研发实力,两相结合将AI从象牙塔带进了安防、金融、家居、交通等各大行业。
进一步影响到数据服务行业,贾宇航发现,在进行数据标注时,通常有驾驶经验的工作人员在标注自动驾驶的时候也会有很好的工作效率。 而未来,在数据标注行业,玩家们也将随着AI行业而一同进入定位与细分市场追逐阶段 以云测数据为例,目前,他们集中于智能安防、智能驾驶、智慧金融、智慧家居,并在这几个领域中建立了较高的行业壁垒。
次是多模态,所谓多模态,即是对多维时间、空间、环境数据的感知与融合 比如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达\红外\RFID才能感知的更精准、更真实。 相应的,在数据服务的时候,企业也要跟上客户需求,掌握好对多维传感器融合的数据采集与标注
最后则是专业化,尽管当前AI技术已经进入落地阶段,但是头部AI企业相较传统行业的AI落地,在技术上会有前沿性的领 这些算法企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,相应的数据服务企业也要有前瞻性,才能在行业竞争中建立长期的壁垒。

结语:脱离刀耕火种,数据服务进入精细化运营时代

从贵阳、河南农村走向北京城里,理念更先进、技术更硬核、服务更专业的AI数据服务企业正将数据采集与标注带入精细化运营时代。
一方面,AI落地,让技术脱离实验室刷榜走向实际场景,也让数据服务行业从幕后走到台前,成为这一过程之中最隐秘的见证者。
另一方面,5G+AI+IoT时代来临,为市场带来新的爆发机遇,台前是百花齐放的AI产品,背后则是默默无闻的数据服务产业,正是他们托起了AI发展的基石。
在这片蓝海市场中,未来机遇广阔,但是淘汰也在持续进行,可以肯定的是专业化、场景化、定制化将成为行业趋势。

(本账号系网易新闻·网易号“各有态度”签约帐号)


登录查看更多
8

相关内容

华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【伯克利-滴滴出行】深度学习多源领域自适应综述论文
专知会员服务
53+阅读 · 2020年2月28日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
27+阅读 · 2019年9月16日
主流互联网平台广告业务对比分析
百度公共政策研究院
29+阅读 · 2019年5月20日
被忽视的安防肥肉:给傻瓜摄像头插上AI翅膀
深度学习的核心:掌握训练数据的方法
北京思腾合力科技有限公司
3+阅读 · 2017年12月11日
你不得不看的六篇知识图谱落地好文
AI前线
29+阅读 · 2017年11月19日
Arxiv
92+阅读 · 2020年2月28日
Arxiv
6+阅读 · 2020年2月15日
Next Item Recommendation with Self-Attention
Arxiv
5+阅读 · 2018年8月25日
VIP会员
相关VIP内容
华为发布《自动驾驶网络解决方案白皮书》
专知会员服务
125+阅读 · 2020年5月22日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
239+阅读 · 2020年4月18日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
195+阅读 · 2020年3月8日
【伯克利-滴滴出行】深度学习多源领域自适应综述论文
专知会员服务
53+阅读 · 2020年2月28日
数据标注研究综述,软件学报,19页pdf
专知会员服务
89+阅读 · 2020年2月20日
【德勤】中国人工智能产业白皮书,68页pdf
专知会员服务
301+阅读 · 2019年12月23日
医疗知识图谱构建与应用
专知会员服务
384+阅读 · 2019年9月25日
相关资讯
2019年中国人工智能基础数据服务行业白皮书
艾瑞咨询
27+阅读 · 2019年9月16日
主流互联网平台广告业务对比分析
百度公共政策研究院
29+阅读 · 2019年5月20日
被忽视的安防肥肉:给傻瓜摄像头插上AI翅膀
深度学习的核心:掌握训练数据的方法
北京思腾合力科技有限公司
3+阅读 · 2017年12月11日
你不得不看的六篇知识图谱落地好文
AI前线
29+阅读 · 2017年11月19日
Top
微信扫码咨询专知VIP会员