人工智能丨白皮书
在经历了一段时期的野蛮生长之后,人工智能基础数据服务行业进入成长期,行业格局逐渐清晰。人工智能基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,人工智能基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务,不过AI算法研发单位和AI中台也可提供一些数据处理工具,产业上下游普遍存在交叉。
2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86%,预计2025年市场规模将突破113亿元。市场供给方主要由人工智能基础数据服务供应商和算法研发单位自建或直接获取外包标注团队的形式组成,其中供应商是行业主要支撑力量。
数据安全、采标能力、数据质量、管理能力、服务能力等仍是需求方的痛点,需要人工智能基础服务商有明确具体的安全管理流程、能够深入理解算法标注需求、可提供精力集中且高质量的服务、能够积极配合、快速响应需求方的要求。
随着算法需求越来越旺盛,依赖人工标注不能满足市场需求,因此增强数据处理平台持续学习能力,由机器持续学习人工标注,提升预标注和自动标注能力对人工的替代率将成趋势。
远期,越来越多的长尾、小概率事件所产生的数据需求增强,机器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的护城河。
意指为AI算法训练及优化提供数据采集和标注等形式的服务
人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。
人工智能概念爆发伊始,算法、算力、数据就作为最重要的三要素被人们乐道,进入落地阶段,智能交互、人脸识别、无人驾驶等应用成为了最大的热门,AI公司开始比拼技术与产业的结合能力,而数据作为AI算法的“燃料”,是实现这一能力的必要条件,因此,为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为了这一人工智能热潮中必不可少的一环。
如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。
伴随国内人工智能热潮爆发,大量的AI公司拿到融资,为了不断提高算法精度,数据采标需求也空前爆发,一度催生了行业的繁荣。
但早期的AI基础数据服务门槛较低,玩家鱼龙混杂,使行业标准模糊、服务质量参差不齐。
随着竞争加快,AI公司对训练数据的质量要求也不断提高,并且当产业落地成为主旋律,需求方对垂直场景的定制化数据采标需求成为主流,众多小型AI基础数据服务公司从数据质量和采标能力上达不到要求,或被淘汰,或依附大平台,行业格局逐渐清晰,头部公司实力逐渐凸显。
随着算法需求越来越旺盛,目前机器辅助标注、人工主要标注的手段需要改进提升,增强数据处理平台持续学习和自学习能力,增加机器能够标注维度、提升机器处理数据的精度,由机器承担主要标注工作将成为下一阶段的行业重心。
未来,越来越多的长尾、小概率事件所产生的数据需求增强,人机协作标注的模式性价比不足,机器模拟或机器生成数据会是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的护城河。
人工智能是研究如何通过机器来模拟人类认知能力的科学,机器学习是现阶段实现人工智能的主要手段。
机器学习方法通常是从已知数据中学习规律或者判断规则,建立预测模型,其中,深度学习可以通过对低层特征的组合,形成更加抽象的高层属性类别,自动从信息中学习有效的特征并进行分类,而无需人为选取特征。
凭借自动提取特征、神经网络结构、端到端学习等优势,深度学习在图像和语音领域学习效果最佳,是当今最热门的算法架构。
在实际应用中,深度学习算法多采用有监督学习模式,即需要标注数据对学习结果进行反馈,在大量数据训练下,算法错误率能大大降低。
现在的人脸识别、自动驾驶、语音交互等应用都采用这类方法训练,对于各类标注数据有着海量需求,可以说数据资源决定了当今人工智能的高度。
由于应用有监督学习的AI算法对于标注数据的需求远大于现有的标注效率和投入预算,无监督或仅需要少量标注数据的弱监督学习、小样本学习成为了科学家探索的方向,但目前无论从学习效果和使用边界来看,均不能有效替代有监督学习,人工智能基础数据服务将持续释放其对于人工智能的基础支撑价值。
定制服务为主要服务形式,数据集产品集中于语音类赛道
目前,国内AI基础数据服务主要为数据集产品和数据资源定制服务,数据集产品往往是AI基础数据服务商根据自身积累产出的标准数据集,以语音数据集为主,主体偏普通话语音、英文语音、方言语音等;
为保证算法优势,客户更多采用定制化服务,由客户提出具体需求,数据服务商或直接对客户提供的数据进行标注、或对数据进行采集并标注。
大型的需求方,为保障数据的安全,往往提供Web形式的自有标注平台给执行方,以此对整体项目进行把控,也有一些AI基础数据服务商向客户提供私有化平台建设服务,或将自身平台与甲方系统兼容;
除以上两种形式外,部分AI基础数据服务商还向算法服务进行拓展,提供算法训练、模型搭建等服务。
人工智能基础数据服务的发展背景
人工智能经济崛起为基础数据服务提供长期向好的基本面
2010年语音识别和计算机视觉领域产生重大突破,国内开始萌生AI概念。到2015年,国内迎来人工智能创业热潮,独角兽不断涌现,融资记录被不断打破。2012年-2019年8月人工智能领域共发生2787件投融资事件,总融资额达4740亿元,人工智能成为最炙手可热的融资热点,百度、阿里、腾讯、京东、华为等科技企业也纷纷加注。2017年至今,产业落地成为AI行业的主流,人工智能赋能实体经济保持高速发展态势,涉及行业包括安防、金融、零售、交通、教育、医疗、营销、工业、农业、企服等众多领域。下游的爆发式增长为人工智能基础数据服务的发展提供了长期向好的基本面。
数据量呈指数式增长,非结构化数据的应用依赖于清洗标注
PC、互联网、消费级移动设备的兴起宣告了数据时代的来临,物联网的发展更使线下业务产生的大量数据被采集起来,数据量呈指数式增长,据IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非结构化数据。
过去计算机主要处理结构化数据,人工智能模型却以处理非结构化数据见长,但“玉不琢不成器”,数据经过清洗与标注才能被唤醒价值,这就产生了源源不断的清洗与标注需求。
在我国,每年需要进行标注的语音数据超过200万小时,图片则有数亿张。
AI基础数据服务方的上游是数据生产和外包提供者,下游是AI算法研发单位,AI基础数据服务方通过数据处理能力和项目管理能力为其提供整体的数据资源服务。
AI基础数据服务方整体有两大类,一种是具备自有的标注基地或全职标注团队,这类企业也参与产业上游部分直接提供产能资源,另一种是依靠众包或外包模式,专注于数据产品的开发与项目执行。
下游部分AI公司拥有自己的标注工具,也可通过AI中台获取一些通用标注工具,同时一些数据需求大的企业还孵化了自己的数据服务团队。
整体而言,产业上下游普遍存在交叉关系。
从融资规模来看,人工智能基础数据服务市场的融资多集中在千万级别。
从时间维度来看,2015年人工智能基础数据服务商获得的融资金额相对较高,标志着行业初露头角,受到资本的认可。
从获得融资的企业数量来看,目前获得融资的玩家并不多,资本市场表现的活跃度不高。
从融资轮次来看,大部分融资仍然集中于早期融资,目前上市的企业仅挂牌新三板的数据堂一家(不考虑科技公司内部孵化的基础数据服务商)。
人工智能基础数据服务毛利率普遍较高,但为保持与人工智能市场前沿算法的匹配,需要投入大量研发成本进行数据处理平台与工具的研发升级,因此对融资仍有较强依赖。
人工智能基础数据服务行业是典型的To B型业务,商业模式较为稳定。
在生产方面,主要通过自建标注基地或标注团队、搭建众包平台、采购供应商外包服务(BPO)等模式实现生产运营,大多企业主要采取众包与外包模式,百度数据众包、倍赛等企业自建标注基地或全职标注团队,对于培训较高素质工作人员、完善团队管理有积极意义;
在获客方面,主要通过口碑传播、学术会议与展会及代理渠道等模式进入市场,对销售人员熟悉市场趋势、客户需求的要求较高;
在实施交付方面,有私有化部署和公有部署两类,能够较为灵活地应对客户对数据安全、交付周期与成本的个性化需求。
2025年市场规模将突破百亿,行业年复合增长率为23.5%
2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比86.2%,数据集产品占比12.9%,其他数据资源应用服务占比0.9%;
行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。
从整体增速来看,行业发展较为稳健,下游人工智能行业持续发力将形成长期利好。
2018年中国人工智能基础数据服务市场以语音、视觉、NLP领域的标注服务为主,同时提供采集与标注服务占比较少,这是由于生数据由需求方提供的情况较多,但这并不意味着市场中数据采集需求弱,相反,人工智能技术落地后产生了大量新兴垂直领域的数据需求,然而这些数据采集难度大,能够提供相关采集工具和服务的供应商将获取竞争优势。
市场供给方主要由企业自建或直接获取外包团队的形式以及供应商组成,又以供应商为行业主要支撑力量,占比79%
。
目前人工智能基础数据服务行业CR5占26%市场份额,行业集中度较为适中,既非寡占型市场也非充分竞争市场,这一方面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早,积累了较多客户资源,另一方面则是由于下游企业之前多采用公开数据集训练模型,对数据的高精度要求由来尚短,受生态传导效应滞后影响,市场门槛还不显著,资金与研发实力较为薄弱的中小企业还有较强的发展土壤。
然而未来,随着下游企业发展壮大,直接使用外包团队成本低廉、数据安全可控性强,一些基础性需求将由下游企业自给自足,外部的数据服务商现有的存量市场面临下降,因此必须承担高难度、前沿独特性任务,这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究,以把握客户需求,开拓增量市场,因此资金与研发实力成为较高行业门槛,同时受近年资本市场冷却影响,一批中小型厂商面临业务收缩,再者部分厂商如倍赛开始在业内并购,参考海外数据服务市场发展情况(海外行业巨头Appen多次并购其他企业),并购也将成为市场趋势,多种因素叠加影响下,行业集中度将提升。
视图基础数据服务市场现状
人像与OCR数据是视图基础数据服务的主流
在不考虑自动驾驶的前提下,2018年视图基础数据服务市场达到6.6亿元,人像与OCR数据是视图基础数据服务的主流,尤其人像数据占市场的42.9%。OCR占27%,其他的人体识别数据、商品识别数据、工业质检数据、医学影像数据及其他新场景数据等较为分散,合计占市场30.1%。
按照数据使用方向,可以划分为新算法模型搭建与研发、在已有算法基础上增加新模块、解决方案交付过程中定制优化等三类,其中新算法模型搭建与研发和在已有算法基础上增加新模块类型的数据需求是可以根据相应机器视觉算法的前沿研发方向来判断预测的。
例如,就智慧城市场景而言,针对汉族的人脸识别和视频结构化已较为成熟,在实际应用场景中还需针对少数民族和其他人种进行优化以提升整体算法准确率,此外,跨镜追踪成为场景研发热点,相应的跨摄像头数据如何标注对算法训练也会产生较大影响,再及,深度相机可以帮计算机读懂三维立体的监控视频,还能够较好地解决复杂光照条件下视图数据采集的问题,也将在未来成为重要的研发方向,综上,多民族、多人种数据、跨摄像头数据、3D数据的采集与标注服务将为视图基础数据服务市场的发展带来增量空间,OCR、手机、零售等其他领域也同理可针对算法研发方向挖掘增量市场。
L3级别以上的自动驾驶系统主要有感知、定位、预测、决策和控制五部分,其对于计算机视觉技术的需求度远高于ADAS,系统需要对雷达、摄像头等传感器采集的点云和图像数据进行抽取、处理和融合,构建车辆行驶环境,为预测和决策做依据,这对于算法的准确性和实时性有极大考验。
目前自动驾驶的视觉技术主要应用有监督的深度学习,是基于已知变量和因变量推导函数关系的算法模型,需要大量的标注数据对模型进行训练和调优。
在世界级无人驾驶大赛中,主办方往往提供近亿张图片、数十万张标注图片供参赛团队训练使用;
在路测或真实道路驾驶时,如人车混杂、分布稠密、行为多变等复杂环境问题更需要海量的真实路况数据不断对算法进行优化,才能保障无人驾驶车辆正常可用。
如今国内自动驾驶飞速发展,AI公司、科技公司、高精地图厂商、车厂等参与者众多,该领域的数据采集和标注需求已经成为AI基础数据服务的主要项目之一,且自动驾驶算法应用仍待优化,数据需求缺口仍在,市场远未饱和。
2025年采标规模将超24亿,科技公司和车厂是主要需求方
自动驾驶基础数据主要是道路交通图像、障碍物图像、车辆行驶环境图像等,需求方以科技公司、汽车厂商和高精地图厂商为主,2018年自动驾驶行业基础数据服务规模为5.76亿元,预计2025年将超24亿元,三方规模占比分别为49%、47.2%和3.8%,行业数据总任务量超一亿张,2D图像标注与3D点云标注任务量基本为2:1。
其中高精地图厂商算法较为成熟,数据自动化标注程度可达90%左右,外包需求较少;
以百度、图森未来为代表的自动驾驶科技公司一直是该领域基础数据服务的主要买方,平均各家算法训练图像数据累积需求在千万级以上,随着落地项目进程加快,将会有更多细分场景的需求产生;
近几年,汽车厂商在ADAS和自动驾驶方向的投入明显,上汽、吉利等厂商年投入均可达数亿元,对于数据的采集和标注需求也逐年增加,预计未来3年中,汽车厂商将成为需求主力。
远场语音交互成为主流需求,中文类数据仍占据市场核心
2018年语音交互相关数据服务市场规模达到13.5亿元。
语音交互主要分为近场交互、中场交互和远场交互,以智能影音家居、可交互机器人和车机为代表的中远场交互类数据服务需求合计占到智能交互基础数据服务的68%,成为当前智能交互基础数据服务的主流需求,因此针对远场语音交互的低噪声环境服务具有较强发展潜力和议价能力。
在服务语种上,中文(含方言)服务占据71%的市场份额,外语种资源相对稀缺,采集和标注难度较大,成本相对更高,目前占29%的市场份额。
目前企业在智能交互系统的建设中,对单纯的语音识别或合成方面技术能力相对较完善,而在上下文理解、多轮对话、情绪识别、模糊语义识别、意图判断等方面的研发痛点更强,根据智能交互系统算法的发展,迭代并设计符合算法需求的NLP数据产品,有助于从数据层面推动智能交互系统的发展。
特别的,对话系统的效果对标注数据的质量和规模依赖性很强,但目前受标注数据和模型能力的双重制约,对话流程还无法对语音、语义整个交互流程打通,而实现跨语音识别、语义理解的复合数据标注可以帮助减轻语音信息与文本信息之间的信息误传导,对整个对话流程效果增强能够产生积极影响,将增加智能交互基础数据服务探索的可能性。
人工智能基础数据服务客户定位
客户分为AI公司、科技公司、科研机构、行业企业四类
从需求方来看,AI公司和科技公司占主要份额,AI公司更聚焦于视觉、语音等某一类型的基础数据服务,而科技公司结合集团优势,向人工智能整体发力,不同部门会产生多类型数据需求,科研机构需求占比较小。此外传统意义上的行业企业,如汽车厂商、手机品牌商、安防厂商等传统企业围绕自身业务进行技术拓展,也开始产生AI基础数据需求,并且量级逐渐增大,未来将释放更多市场空间。
企业应用人工智能算法要经历研发、训练和落地三个阶段,不同阶段对于AI基础数据服务也有差异化需求。
研发需求是新算法研发拓展时产生的数据需求,一般量级较大,初期多采用标准数据集产品训练,中后期则需要专业的数据定制采标服务;
训练需求是通过标注数据对已有算法的准确率、鲁棒性等能力进行优化,是市场中的主要需求,以定制化服务为主,对算法的准确性有较高要求;
落地场景的业务需求中算法较为成熟,涉及的数据采集和标注更贴合具体业务,如飞机保养中的涂料识别数据等,对于标注能力和供应商主动提出优化意见的服务意识有较强要求。
目前需求方在选择数据服务时往往会遇到数据安全、采标能力、数据质量、管理能力、服务能力等痛点。
对于数据安全,需求方希望基础数据服务商有明确具体的安全管理流程,对数据传输、存储,以及结项后的数据销毁等环节比较重视。
在采标能力方面,需求方算法越来越贴近业务,希望数据服务商对于自动驾驶、工业等有一定门槛的领域有采集能力,并且能理解客户意图,配合标注,甚至可以提出标注建议;
根据市场反应,大多数数据服务公司首次交付项目时,数据的准确率普遍偏低,都需要一到两次的返工,故需求方对无效数据少、准确率高的公司更加青睐。
对于执行效率,一般AI基础数据服务商都能在项目周期内完成,但管理能力较弱的公司很难在兼顾多个项目时做到精力集中、高质量地服务客户,同时执行团队的素养与信誉也是重要影响因素。
服务意识是一项软实力,需要AI基础数据服务商能够积极配合、快速响应需求方要求。
人工智能基础数据服务发展建议
企业由被动执行向主动服务的意识跃迁
单纯依据客户各个项目的诉求进行数据采集和标注属于被动执行,主观能动性低、行业边界有限,各家公司的产品和服务趋于同质化、竞争呈胶着状态,制约着AI基础数据服务的发展。通过对需求方的研究,发现除安全性、质量、效率等核心关注点之外,越来越多的需求方对数据服务公司产生了主动服务的需求,希望数据公司能够更懂算法技术、更懂需求场景,甚至能参与到算法的研发中来,给出数据采标方面的优化建议,这也为数据服务商形成差异化竞争带来了契机,尤其是在AI落地阶段,在垂直场景中能够形成一套集调研、咨询、设计、采集、标注为一体的AI基础数据整体解决办法,将在收入和业务边界上实现突破。