阿里巴巴在视觉AI领域进行了很多探索与实践。本文将通过四个案例来讲述如何研发出合适的技术并且转化为生产力,以及如何利用技术为客户创造最大的价值。
“繁华”背后的挑战
随着深度学习等技术的进步,人工智能(AI)行业迅猛发展并赋能各行各业。从2000年到2017年,出现了8000多家AI公司,17年间AI创业公司增加了14倍。仅2017年,中国AI公司获得的投资就超过50亿美元。各大公司纷纷成立AI研究院或者AI部门。AI行业欣欣向荣,势不可挡,但在营收、技术、用户需求等方面,却面临着很多不得不重视的挑战。
首先是关于AI公司的营收。90%的AI公司都处于亏损状态。很多AI公司做项目,但是很多项目需要定制研发,需要大量的人力,导致研发成本很高。不做项目而做产品的公司也有困难。目前有很多AI产品同质化比较严重,使得很多技术卖不出高价钱。
其次是技术落地的差距。AI产品背后需要强大的技术作为支撑,而实验室场景下的技术和真实场景下的产品要求之间存在很大的差距。模型越复杂,两者之间的差距可能就越大。例如,人脸算法在LFW1上可以做到99.7%的准确率,但在真实场景中,如果要求虚警率(false positive rate)大幅度降低,那么召回率(truepositive rate)就可能很低。虽然这个数据稍微有点过时,但也足够说明问题。除了技术的差距外,还有数据上的差距。例如,目前热门的研究课题——行人重识别(Person Re-id),公开数据集中的数据和实际场景其实存在很大差距,导致技术性能无法满足落地场景的要求,这些都是很大的挑战。
最后是用户需求的差距。在真实场景下,AI公司能做的事情和用户真正想实现的需求之间,依然存在很大的差距。举一个真实的例子,一个客户给我们提了260项需求,这些需求都实现了才能解决客户的所有痛点问题,但我们目前能实现的只有20多项。
什么是成功的AI产品
在AI的浪潮中,人人都梦想能打造出成功的AI产品。到底什么样的产品或应用才算获得成功?在比赛中获得第一名,新闻中频繁曝光,获得高额估值,融资到很多研发经费,这些都是有价值的方面。然而,最为重要的还是产品或应用能给客户带来重大的价值。这个价值有不同的层次,可以分为锦上添花、雪中送炭以及无中生有。雪中送炭和无中生有,比起锦上添花更有价值,因为这样的价值是不可替代的,甚至能为客户创造一个需求,进而带来新的价值。例如,智能手机的大屏就是创造出来的需求,餐馆也是一样。如果AI公司的产品或应用能够给客户创造核心的不可替代的价值,那么收入就不仅仅来自风险投资(VC)和大公司,而且来自客户,这时候才算是成功的。
阿里视觉AI应用探索与实践
阿里巴巴在视觉AI领域进行了很多探索与实践。本文将通过四个案例来讲述如何研发出合适的技术并且转化为生产力,以及如何利用技术为客户创造最大的价值。
拍立淘视觉搜索
平时我们在电商购物的时候大多是用文字搜索,或者去浏览商品目录以及推荐列表。但很多时候文字无法表达用户想要什么。拍立淘是淘宝基于图像识别技术沉淀的视觉搜索AI应用,解决用户“通过照片搜索商品”的刚需。
例如,有一次我在茶馆喝茶的时候用到了一个杯子,茶叶放在一个容器里面,杯盖上有一个红色的按钮。按下红色按钮,茶水就漏到茶壶里,可以很方便地控制茶的浓淡。如果我要买这个杯子,用文字搜索的方式,很难描述这款杯子的特征,可能只能去搜“带红色按钮的茶壶”,但这样不会搜出好的结果。而拍下杯子的照片,使用“拍立淘”就很容易搜索到,而且我知道了它的名字叫“飘逸杯”(图1)。
用户将拍好的图片上传到搜索应用,拍立淘系统首先判断这个照片是关于什么类型的商品,然后检测商品在图片上的位置,最后提取图片的特征。把图像的特征描述做到可用,是近几年一个很大的发展趋势。使用这些技术去搜索,就变成了大规模向量搜索的问题。此处的搜索和普通文字搜索有两点不同,第一点是特征学习,通过深度学习技术可以灵活地设计神经网络,在大数据上逼迫神经网络收敛到需要的地方。第二点是搜索系统,针对图像的索引系统,是高维空间的向量索引。还有一部分工作是偏向工程方面的,例如如何及时地响应大量用户的搜索请求。图像搜索已经做了几十年,但是在拍立淘之前却没有一个被大家广泛使用的基于图像检索技术的应用系统,所以说电商的图像搜索是刚需,而通用的图像搜索目前还不是刚需。现在拍立淘每天有数千万人在使用,日成交量也很大,成功的关键是我们将技术聚焦在解决一个具体的需求上。一个应用如果能满足刚需,就一定有人使用,哪怕系统一开始并不完善,有人使用就会有数据,同时也会有更多的“坏案例”(bad cases),促使应用不断迭代,并能够清晰迭代的方向。
鹿班视觉banner生成
每次大型促销期间,各个商家都要生成定制的banner广告图,即互联网上做商品宣传的横幅广告图。banner图一般包括商品图片、商品名称和商品促销相关的文字。banner图有上亿张,如果都使用人工生成,就需要大量的人力成本。鹿班是一款视觉生成AI产品,帮助卖家自动完成二维平面广告的设计。banner的生成是多样类型的,每次输入都可以得到不同的结果。这个系统可以自动选择背景,自动为背景改变颜色,自动完成整体设计。2017年“双十一”的7亿多张banner中,有4.1亿由鹿班生成。
虽然视觉生成本身也是基于识别、理解和搜索等一些视觉技术,但是与一般的视觉技术应用不同。视觉生成的应用不是去搜索和理解,而是进行创造。这类技术可以根据需求生成对应的图像、视频或者图形,例如可以将一个页面自动转换为一个视频,可以替换已有视频中的平面或者物体。根据点击率和转化率进行客观的测试,经过验证,鹿班大概相当于本科毕业的设计师水平。而且和人相比,算法的优势是速度,可以在1秒内生成8000个banner。
鹿班这个应用不是设计师、商家或者AI专家单独创造出来的,而是他们碰撞出来的新需求。如果没有鹿班,也可以人工生成banner。而鹿班的出现给商家创造了用AI快速生成banner的新需求。每次大型促销的时候都需要在短时间内产生大量的banner,而只有这个系统才能做到,如今已经成为了刚需。与拍立淘一样,一个成功的AI应用,都是以解决刚需为目标,AI本身对商业模式和商业应用产生很大影响的同时,商业应用在使用当中也给应用回馈大量有价值的数据,帮助AI不断优化。
工业视觉诊断
视觉AI还可以应用到工业视觉诊断领域,可以诊断人,也可以诊断非人。对人的诊断主要是分析医疗影像,而对非人的诊断主要是针对产品和机器,一般称为工业视觉。
在诊断人的领域,针对肺结节的检测和肺部综合的分析,我们曾经获得过LUNA比赛2的第一名。视觉诊断可以提升医生读片的效率,体检是不错的应用场景。现在视觉诊断系统每天处理几万个肺部影像。还有肝脏细胞的检测、膝关节疾病的诊断等,也都应用了我们的诊断系统。曾经在一个医疗行业的峰会上,我们用视觉诊断系统与现场450多名骨科医生比赛,结果是视觉诊断系统比医生的诊断结果稍微好一点。
视觉诊断在工业诊断领域也有大量的应用机会,例如,电池片的质检。有些电池片在生产过程当中出现缺陷,如果是人工检测,判断一块电池片是否有问题需要两秒钟。一般的生产厂商无法做全量的缺陷检测,只能对10%左右的样品抽样检查,检测出有问题的样本,从而估算全量的产品有多少存在缺陷。采用视觉诊断AI系统可以做全量的检测,达到与人相同甚至比人更好的水平。人工检测的准确率在93%~96%,但是机器可以做到98%;人只能区分4种缺陷,但是机器可以区分20种;人的检测时间需要2秒,机器只需要200毫秒。质检本身是很多制造商的瓶颈,有了视觉诊断AI以后,就可以打破这个瓶颈,提高效率,节省成本,提高产品质量。
AI有大量的应用场景,通用的计算技术是存在的,但通用的AI技术是不存在的。真正要解决AI问题,一定要深入这个行业,了解这个行业的数据需求。例如,在工业诊断中,只有很少一部分产品存在问题,要想做非常精准的诊断很困难。通常情况下,会保证召回率,而牺牲准确率。举一个简单极端的例子,比如有10000个样本,里面有10个问题样本,由于技术存在局限性,无法精准地找到这10个问题样本,但却可以找到100个潜在样本,同时保证这10个问题样本存在于这100个潜在样本中。这时候的召回率达到100%,而准确率只有10%。从精度来看,10%是不理想的。但是如果换一个角度,则是减少了99%的人力。从原来的10000个诊断任务减少到100个。即使准确率低到只有1%,也节省了90%的人力。从这个角度思考,算法的设计就会不一样。
城市大脑智能监控
在当代城市中,有很多传感器在努力地工作,随时随地产生大量的数据,但却是一个盲人摸象的局面。城市中虽然有很多摄像头,但大部分是没有智能的。大量的数据被记录下来,保存若干天,然后就自动删除。由于人力有限,不可能查看全部摄像内容。同时,数据没有打通,数据之间的关系没有被挖掘,城市管理问题中潜在的因果关系也无从得知。城市大脑的核心思想在于打通这些数据,用AI算法和算力去挖掘这些数据的价值。使用技术与智能驱动城市管理和服务,带来全面全量全局的优化,也带来高效便捷与省时省力的生活,带来城市管理模式、服务模式和产业模式的变革和突破。
城市大脑这个项目的开始和推进遇到了非常大的挑战甚至遭受质疑:海量数据能不能及时处理,代价有多高?用如此大的代价处理这些数据,能带来什么价值?城市大脑的数据处理与过去的视频监控到底存在哪些差别?
城市大脑的核心就是分析处理城市所产生的海量数据。首先要对视频数据进行认知,对车、人、事、物进行全面精准的识别,然后进行决策和优化,比如宏观的调控,实时的报警等。接下来可以把所有的视觉要素放在搜索引擎里,对人、车进行搜索,比如逃逸的肇事车辆、走失人口等。再下一步就可以进行预测,城市大脑可以精准预测一个小时以内任意时刻的车流和人流。这样,路径规划和交通流控制就更加智能。
城市大脑开始于2016年,2017年成为国家首批四个人工智能开放平台之一。到现在,城市大脑已经有了一些具体实际的应用。
在城市感知方面,例如车人的检测和识别,不论视频质量和天气状况如何,对人、车都能进行精准快速的检测和识别。在这个工作中,我们引进了一个预览层(preview layer)。这个层包含的上下文信息更多,可以判断对应区域里面是否有物体,进而可以抑制很多错误的响应。在真实场景下进行检测、识别还存在很多问题,例如对低质量和少见的车牌进行识别还较为困难。因此,我们自主研发了风格化自编码器去制造一些样本,从而使准确率上升了18%。这个技术还可以用在图像质量增强上,比如超分辨率和降噪之类的问题。
在异常事件检测上,我们采用了自编码器的方法,设计了一个预测分支,可以迫使网络学习时序信息。例如,高速公路上临时停车是非常危险的,当一辆车停在高速公路上时,我们的系统就会检测到它,并且发出警报。杭州有很多骑行交警队,在事故当事人还没有打电话报警时,交警就已经到达事故现场。根据系统分析,如果发现有些地方经常产生规律性的报警,说明这个地方需要进行治理;治理好了,报警数量就会降低。在红绿灯优化方面,在试点区提升了15%~20%的通行效率,能够节省50%的救护车救援时间。
在关于搜索的内容方面,行人重识别是一个热门的研究方向。我们最新的一项工作表明,在网络学习的过程中,视觉对象的位置和特征越来越精准,会聚焦在真正有价值的区域上。例如,图3中检测的基准线(baseline)会预测错误,原因是不能区分黑色的箱子和黑色的短裤,而我们的方法可以把人体和非人体非常明确地区分开来。基于这些技术,我们在Market-1501数据集3上超过了97%的准确度,位于世界第一。这项技术在实际应用中,叫做渐进式视频搜索。
如何构建一个大规模的AI开放平台,尤其是视频处理平台也是我们面临的一个核心问题。基于云计算平台很重要的一个特性就是开放。基于开放平台,第三方开发者可以聚焦在算法研发上,算法可以很容易地部署到这个平台上,其他很多优化和流程的问题都由平台来解决。城市大脑是一个开放的平台,目前从杭州的萧山区到主城区,再到余杭、苏州、衢州、乌镇、北京、澳门,城市大脑逐步在多个城市或地区落地。
从城市大脑这个案例可以发现,打造AI产品,产生不可替代的价值最为重要。城市大脑赋予摄像头智能分析能力,其相当于几千个警力,可以对红绿灯的调时、配时进行优化,使出行时间降低15%,到那时,这个系统就是不可替代的。当然这不仅仅依赖技术,还依赖于对这个行业以及对数据的深入理解,真实地解决了客户的需求。AI可以起源于项目,但是不能只停留于项目,需要把它变成产品,进而慢慢打造成平台和生态,才能发挥最大的价值。
总结与展望
本文分享的所有实践案例都遵守一个原则,那就是“AI+算力+数据=价值”。其中,最关键的是价值。只有真正解决了用户的痛点,才能驱动AI不断迭代发展,不断优化。价值也并不是简单地把AI、算力、数据放在一起就会产生,其中有很多规律,需要对行业、数据和算法有深入的理解。
AI无处不在、势不可挡。虽然已经取得了长足的进步,但仍然有很多局限,面临很多挑战。如果没有深入行业应用,就无法做出成功的AI产品及应用。未来,人和AI都有很多机会。我们应该优势互补,让AI去做更多人力所不能做的事情,让人去做算力和AI所不能及的事情。
作者介绍
华先胜 •CCF专业会员。IEEE Fellow,ACM杰出科学家。 •阿里巴巴达摩院机器智能实验室副主任,城市大脑人工智能技术负责人。 •主要研究方向为大规模视觉人工智能领域,包括视觉分析、识别、搜索和挖掘等。 |
|
中国计算机学会
长按识别二维码关注我们
CCF推荐
【精品文章】
点击“阅读原文”,前往CCF数图相关栏目。