阿里 iDST 华先胜:深入行业的云上大数据视觉智能 | 新智元AI 峰会演讲

2017 年 4 月 22 日 新智元

  新智元报道  

编辑:零夏 

 

新智元启动 2017 最新一轮大招聘: COO、总编、主笔、运营总监、视觉总监等8大职位全面开放


新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元,与人工智能业界领袖携手改变世界。

简历投递:jobs@aiera.com.cn    HR 微信:13552313024


【新智元导读】阿里巴巴iDST研究员/资深总监华先胜在新智元2017开源·生态AI技术峰会上发表演讲《深入行业的云上大数据视觉智能》,结合阿里云正在开展和计划进行的实际项目,谈了云上视觉的三大技术挑战和五个关键要素,介绍了阿里云大数据平台上的智能视觉计算,还有团队的一些解决方案。


 

华先胜是阿里巴巴iDST研究员/资深总监,IEEE Fellow,ACM杰出科学家,国家“千人计划”特聘专家。2008年获得麻省理工学院技术评论TR35奖(全球35个35岁以下的青年创新者)。他于2016年初加入阿里云iDST,创立视觉计算团队,负责云上大规模视频图像智能分析、识别、搜索、生成和挖掘的技术和服务。


在新智元2017开源·生态AI技术峰会上,华先胜发表了演讲《深入行业的云上大数据视觉智能》,指出了视觉技术的三大挑战和视觉智能的五个要素——算法、平台、数据、用户和商业。他还谈到视觉技术在阿里的四大应用:电商搜索、以图搜图、视觉诊断、视觉广告,介绍了阿里的视觉智能计算——阿里云眼,也称ET之眼。



以下是他的演讲。


华先胜:很高兴有机会能在这个 AI 盛宴中一起探讨云上的视觉智能。这个题目叫“云上大数据视觉智能”,这一部分比较直白。那“深入行业”是什么意思?是不是就是AI+呢?我们回头再来讨论。


首先,我们看看现在发生了什么。这些其实已经发生很多年了,这里有大量的道路的,安全的,教育的,卫星的,无人机的,互联网的,手机拍照的图像视频数据。前面几个我们是被动拍摄的,后面几个是主动拍摄的。



全世界可能有数以亿计的摄像头每天都在产生数据,中国占据其中很大一部分,还包括大量的卫星图片,无人机视频数据。这些摄像头视频,卫星图片,无人机视频的数据价值是不是真正被充分发挥出来了呢?能否更好的应用于民生出行,环境保护,洪涝救助,学生关怀等应用场景呢?



还有个人图像视频数据,据估计,每天都有若干billion的图像数据产生。好多人拿着相机拍一拍,在微博上发几张图片之后,大量的数据会被束之高阁,过一段时间就很难找到了,更谈不上发掘其价值。



还有一些其它场景,包括航拍,娱乐新闻、体育、医疗、工业、无人驾驶等每天都在产生大量数据,我们的AI技术,视觉计算技术是不是都能够有效处理呢?


视觉大数据三大挑战:量大、实时、真实场景复杂度



其实这里有几大挑战。


第一,数据量非常大。在中国每个地区都有数以万计甚至十几万的探头数据,能不能处理那么大的数据量,能不能把它的价值体现出来,应用于民生出行,环境保护,洪涝预警,这是第一个挑战;


第二,很多场景下要求实时处理,比如交通场景的实时优化。以目前的计算能力,算法性能是否能够得到要求?


第三,真实世界中数据的复杂度。在很多场景下的数据的复杂度要远远超过我们经常见到的ImageNet图像识别比赛中的一千类场景的识别。


云上视觉智能五要素:算法、平台、数据、用户和商业



我们大概看一下现在的算法、数据、平台、商业等角度是不是真正ready了。首先,我们看算法。提到算法,一般大家首先关心的是算法的准确率。经常有人说公测集上的准确率已经超过人的能力。其实,刷数据集的人都知道这仅是个开始,我们要面对的世界比公测集要残酷得多。


算法的覆盖率更是经常被人忽略。其实,覆盖率往往决定产品是不是真的可用,比如电商领域的视觉搜索,用户对搜索的期望很高,他希望拍什么都能搜到满意的结果,若覆盖率不够,用户就会用脚投票了。还有算法的计算效率,尤其在处理大量视觉数据时,效率能够决定这个事情有没有发生的可能性。



关于计算效率,当然还有其他方面。不仅是算法本身,还有大规模的计算平台,单个计算节点的优化,算法本身软、硬件上的优化。当然计算平台不仅需要好的性能,还有处理流程的流畅性、容错等。现在这些都算是有解的,但是不是非常高效的解,是值得商榷的。只有我们把效率发挥到极致,算法才能成为真正的核心竞争力。



还有数据,我们经常发现,数据对算法性能的提升要超过算法本身的优化我们经常看到大量的数据,可是对于有些场景(后面会提到),真正能够用来做算法研发的数据很少,它被埋藏在大量的其他数据当中。另一方面,大量的各种数据的利用确实还有很多困难,从技术来讲有采集、传输、接入、融合和存储等等的困难,以及整个数据链路的打通;当然还有非技术的困难,比如数据的开放,数据拥有者是不是愿意开放这些数据,比如涉及隐私的探头数据。其实在中国数据开放的条件远远比西方好,这也是AI在中国为什么能够遍地开花、部分结果的一个重要原因。



刚才提到,人工智能风生水起,视觉计算遍地开花。花是开了,但能不能结果呢?这里最关键的,是我们瞄准的是不是一个正确的问题,能不能给用户带来真正的价值。例如,是不是实现了人力的节省,性能的提升,成本的降低,或者成品率的增高和安全性的提升,等等。另外,算法不是万能的,总有它的局限,我们怎么用其它方式来弥补算法的不足,打通整个end to end的商业流程,这也是商业应用场景中要去关注和解决的问题。



总结起来,这就是视觉智能的五要素——算法、平台、数据、用户和商业算法是安身立命之本;平台和效率决定这件事是否能够发生;数据一方面是利器,一方面也是束缚;用户决定了你做的事情是不是正确的事情;如果没有很好的商业模式,这一切都是无法长久的。


阿里云四大使用案例:电商搜索、城市之眼、视觉诊断、视觉广告



下面举几个例子,这是阿里巴巴,阿里云上的一些技术,有些已经成熟,有些正在做。第一个例子是电商的搜索。电商的图像搜索(通过拍照的方式进行商品搜索)解决的是文字之外的搜索入口问题。其实图像搜索的历史很悠久,商品搜索应该是最容易落地的,最有价值的场景。我们经常会碰到无法用简单的文字描述的搜索需求,电商中的图像搜索就是解决这个问题的。


从算法角度,我们需要商品检测和商品识别,以及商品描述,也就是怎么样用一串数字描述物体或者商品的本质特征;


从系统角度有快速索引、实时检索;从平台角度有索引和检索流程的平台化、流程化,从而不仅能服务自身的电商图像搜索,还可以服务于其他电商;


从价值角度,用户量和交易量就可以反映出来。如果一个商品的拍照搜索能有千万级的用户,每天有几千万的成交,影响力还是很大的。



商品图像搜索就技术要求而言:


  1. 第一是相关性,也就是,我搜出来是我想要的;

  2. 第二个是覆盖率,也就是无论搜什么,是否都能给你一个 reasonable 的结果;

  3. 第三是伸缩性,是指系统性能是不是能够实时的、大规模的索引和搜索;


还有用户体验,特别是当算法有缺陷时,怎么通过界面设计或其他方式来减少算法缺陷的影响,以提高用户体验,这在实际产品或服务中也是很常见的方法。



这是以图搜图的在线搜索流程,首先有图片质量判断和类目识别,第二是主体检测和进一步的主题质量判断,第三是特征提取和量化,第四是检索,第五是排序和搜索结果质量判断,最后是结果呈现,反馈给最终的用户。在整个链路中,深度学习贯穿始终。



我们来看一些例子,比如,当看到杂志里比较有意思的商品,可以直接拍照,看看淘宝上有没有卖,包括鞋子、衣服等。这是一个杯子,记得上次跟同事一起喝茶,看到泡茶的杯子很不错,之后再拍立淘上一看就知道它叫飘逸杯。




第二个例子是城市之眼,既包括卫星图片,也包括无人机以及地面上的摄像头数据的分析挖掘。它的目标是解决民生出行、环境保护,洪涝救助等。比如从算法上讲,有交通的民生出行的视频数据分析、有城市街区的搜索等;从系统上来讲,需要对大量视频进行计算处理,实时决策,快速索引,快速检索;从价值上来讲,有更好的通行能力,更少的人力,更安全的城市,更智能的城市。




这里需要的有大家常用的技术,如检测、识别、搜索、挖掘,还有系统平台。还有一些算法,虽然对应的数据处理量很大,但是拿来做算法研发的数据不是很多,例如双层车牌、多层文字的路牌等,量很少。能否用很少的样本训练出更好的模型呢?有一种解决方案是,我们通过“风格化自编码器生成对抗网络”,通过一些算法合成的以假乱真的特殊车牌、路牌,使得算法识别率能够显著提升。




还有一个数据量更少的例子,比如事故的检测,每天发生的事故有限,差异也很大。但是,你有大量的正常数据,这个时候我们可以通过时空异常检测的方法,也就是通过深度学习的方法,找三维重建的误差,从而发现时间、空间上的异常事件。


放大到城市视觉数据中心,试想如果我们能够及时处理整个区域所有数据,把所有数据放在一个索引里面,大家可以想一想这个威力将有多大。



第三个例子是视觉诊断,包括诊断机械(工业上)还是生物诊断(医疗上)。这与刚才提到的时空异常有一定的相关性,共同的特点是目标样本很少,目标样本之间的差异很大。这与通常的检测识别不同,这里我们需要做到的是 high recall 和 reasonable precision。这就是我们提到的从“大海捞针”到“桌面找针”,可以节约大量人力。



在医学图像识别中的CT结节识别,机器会比不那么资深的医生做的更好。当然在很多工业场景,比如像火车、隧道、煤矿、高压线等,凡是需要通过人眼或者摄像头来辨认的场景,都可以尝试用视觉计算的方法来解决。



第四个例子是视觉广告。广告是充分挖掘个人视频、娱乐视频价值的常用方式。广告的方式有很多,可以往里插入,可以往外导出。还有一种方法是对视频进行仔细地分析,进行相机跟踪、三维重建,并在场景中去检测平面,去寻找合适的广告位置。在候选完广告位之后,再进行实时的广告匹配,得到实时的嵌入式、植入式的广告效果。当然,现在大家在电视、电影上也能够看到,可惜基本是人工做的,而我们这个基本是自动做的,只需要非常少的人工。




直播场景不能很方便地把三维场景呈现出来,尤其是室内直播。这是若有一点交互,就可以把背后的这面墙变成一个广告墙。


阿里云眼:云上的视频图像分析、识别、搜索生成和挖掘服务



我们刚才提到的对视云上的视觉技术,其实阿里的视觉智能计算统一称为阿里云眼或ET之眼,是阿里大数据平台上的智能数据计算中心,承载云上广泛深入的视频图像分析、识别、搜索、生成和挖掘服务。



这是阿里云眼的总图,底层有视觉数据和视觉相关数据的分析、识别、检测、特征提取,还有媒体库、索引库等,往上还有各种各样的应用。总体而言,主要分为分析类、搜索挖掘类和合成类。



视觉计算任务非常多,几个人、几家企业是无法完成这项任务的。我们要在存储、计算、机器学习的平台基础上构建一个生态,包括基础层的API算法,中间层的功能单元,最上层的解决方案,为很多人提供创新、创造和解决行业问题的机会,从而深入这些行业、打穿这些行业。这样,人工智能才能落到实处,人工智能才能真正发挥价值,才能让intelligence everywhere 能够真正实现。


谢谢大家!




 

新智元招聘


新智元日前宣布,获6家顶级机构总额达数千万元的PreA轮融资,蓝驰创投领投,红杉资本中国基金、高瓴智成、蓝湖资本 、蓝象资本跟投。本轮融资将用于新智元团队规模扩充并增加新产品服务线,目标打造 To B 的人工智能全产业链服务平台。


职位:COO


职位年薪:70 - 100 万(工资+奖金+期权)
工作地点:北京-海淀区
所属部门:运营部
汇报对象:CEO
下属人数:28 人
年龄要求:30 岁至 45 岁
性别要求:不限
工作年限:5 年
语  言:英语 + 普通话
学历要求:硕士以上


职位描述:


  1. 热爱人工智能事业,对行业及市场有深入的了解和人脉资源;

  2. 主持公司经营系统总体设计方案 ,负责全公司经营投资预算方案;

  3. 密切关注国际国内 AI 产业动向和趋势,评估重大信息技术的影响,为公司引进人才、技术以及开拓合作伙伴提出意见和建议;

  4. 定期为公司提出企业经营状况分析和前景预测报告,为重大决策事项提供数据支持和专项研究报告;

  5. 负责组织完善各部门制定与其专业管理相关的各项管理制度;

  6. 审查各部门工作汇报,评估工作效率并对存在的问题加以处理;

  7. 有知名企业或知名媒体机构工作经验者优先。


应聘邮箱:jobs@aiera.com.cn 

 HR微信:13552313024

新智元欢迎有志之士前来面试,更多招聘岗位请点击阅读原文查看。



登录查看更多
0

相关内容

华先胜,现任阿里巴巴集团副总裁/高级研究员、阿里巴巴达摩院城市大脑实验室主任。华博士是国际电气与电子工程师协会会士,美国计算机协会杰出科学家;2008年获MIT技术评论“全球35个35岁以下杰出青年创新者”称号(TR35)。1996年和2001年毕业于北京大学数学学院,分别获学士和博士学位;之后工作于微软亚洲研究院,微软美国必应搜索引擎,以及微软美国研究院,从事多媒体、计算机视觉和机器学习方面的研发工作。2015年4月加入阿里巴巴,负责大规模视觉智能计算的算法和系统研发。
商业数据分析,39页ppt
专知会员服务
161+阅读 · 2020年6月2日
2020年中国《知识图谱》行业研究报告,45页ppt
专知会员服务
240+阅读 · 2020年4月18日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
197+阅读 · 2020年3月8日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
98+阅读 · 2019年12月14日
【BAAI|2019】类脑神经网络技术及其应用,鲁华祥(附pdf)
专知会员服务
30+阅读 · 2019年11月21日
AI产业链分布图曝光:1040个玩家,BAT率先步入应用
人工智能学家
4+阅读 · 2019年5月10日
腾讯85页PPT“智能+”产业报告
物联网智库
52+阅读 · 2019年5月1日
重磅 | 腾讯教育业务布局首次公开
雷锋网
5+阅读 · 2019年2月14日
【AIDL专栏】梅涛:深度视觉理解(附PPT)
人工智能前沿讲习班
24+阅读 · 2018年5月25日
人工智能与机器学习技术在医疗保健行业中的应用
深度学习与NLP
11+阅读 · 2018年3月25日
京东与斯坦福达成战略合作 携手推进AI研究
京东大数据
3+阅读 · 2017年11月28日
Arxiv
102+阅读 · 2020年3月4日
Arxiv
9+阅读 · 2019年11月6日
Arxiv
30+阅读 · 2019年3月13日
Arxiv
12+阅读 · 2019年2月26日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员