新智元报道
编辑:零夏
新智元启动 2017 最新一轮大招聘: COO、总编、主笔、运营总监、视觉总监等8大职位全面开放。
新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。加盟新智元,与人工智能业界领袖携手改变世界。
简历投递:jobs@aiera.com.cn HR 微信:13552313024
【新智元导读】阿里巴巴iDST研究员/资深总监华先胜在新智元2017开源·生态AI技术峰会上发表演讲《深入行业的云上大数据视觉智能》,结合阿里云正在开展和计划进行的实际项目,谈了云上视觉的三大技术挑战和五个关键要素,介绍了阿里云大数据平台上的智能视觉计算,还有团队的一些解决方案。
华先胜是阿里巴巴iDST研究员/资深总监,IEEE Fellow,ACM杰出科学家,国家“千人计划”特聘专家。2008年获得麻省理工学院技术评论TR35奖(全球35个35岁以下的青年创新者)。他于2016年初加入阿里云iDST,创立视觉计算团队,负责云上大规模视频图像智能分析、识别、搜索、生成和挖掘的技术和服务。
在新智元2017开源·生态AI技术峰会上,华先胜发表了演讲《深入行业的云上大数据视觉智能》,指出了视觉技术的三大挑战和视觉智能的五个要素——算法、平台、数据、用户和商业。他还谈到视觉技术在阿里的四大应用:电商搜索、以图搜图、视觉诊断、视觉广告,介绍了阿里的视觉智能计算——阿里云眼,也称ET之眼。
以下是他的演讲。
华先胜:很高兴有机会能在这个 AI 盛宴中一起探讨云上的视觉智能。这个题目叫“云上大数据视觉智能”,这一部分比较直白。那“深入行业”是什么意思?是不是就是AI+呢?我们回头再来讨论。
首先,我们看看现在发生了什么。这些其实已经发生很多年了,这里有大量的道路的,安全的,教育的,卫星的,无人机的,互联网的,手机拍照的图像视频数据。前面几个我们是被动拍摄的,后面几个是主动拍摄的。
全世界可能有数以亿计的摄像头每天都在产生数据,中国占据其中很大一部分,还包括大量的卫星图片,无人机视频数据。这些摄像头视频,卫星图片,无人机视频的数据价值是不是真正被充分发挥出来了呢?能否更好的应用于民生出行,环境保护,洪涝救助,学生关怀等应用场景呢?
还有个人图像视频数据,据估计,每天都有若干billion的图像数据产生。好多人拿着相机拍一拍,在微博上发几张图片之后,大量的数据会被束之高阁,过一段时间就很难找到了,更谈不上发掘其价值。
还有一些其它场景,包括航拍,娱乐新闻、体育、医疗、工业、无人驾驶等每天都在产生大量数据,我们的AI技术,视觉计算技术是不是都能够有效处理呢?
其实这里有几大挑战。
第一,数据量非常大。在中国每个地区都有数以万计甚至十几万的探头数据,能不能处理那么大的数据量,能不能把它的价值体现出来,应用于民生出行,环境保护,洪涝预警,这是第一个挑战;
第二,很多场景下要求实时处理,比如交通场景的实时优化。以目前的计算能力,算法性能是否能够得到要求?
第三,真实世界中数据的复杂度。在很多场景下的数据的复杂度要远远超过我们经常见到的ImageNet图像识别比赛中的一千类场景的识别。
我们大概看一下现在的算法、数据、平台、商业等角度是不是真正ready了。首先,我们看算法。提到算法,一般大家首先关心的是算法的准确率。经常有人说公测集上的准确率已经超过人的能力。其实,刷数据集的人都知道这仅是个开始,我们要面对的世界比公测集要残酷得多。
算法的覆盖率更是经常被人忽略。其实,覆盖率往往决定产品是不是真的可用,比如电商领域的视觉搜索,用户对搜索的期望很高,他希望拍什么都能搜到满意的结果,若覆盖率不够,用户就会用脚投票了。还有算法的计算效率,尤其在处理大量视觉数据时,效率能够决定这个事情有没有发生的可能性。
关于计算效率,当然还有其他方面。不仅是算法本身,还有大规模的计算平台,单个计算节点的优化,算法本身软、硬件上的优化。当然计算平台不仅需要好的性能,还有处理流程的流畅性、容错等。现在这些都算是有解的,但是不是非常高效的解,是值得商榷的。只有我们把效率发挥到极致,算法才能成为真正的核心竞争力。
还有数据,我们经常发现,数据对算法性能的提升要超过算法本身的优化。我们经常看到大量的数据,可是对于有些场景(后面会提到),真正能够用来做算法研发的数据很少,它被埋藏在大量的其他数据当中。另一方面,大量的各种数据的利用确实还有很多困难,从技术来讲有采集、传输、接入、融合和存储等等的困难,以及整个数据链路的打通;当然还有非技术的困难,比如数据的开放,数据拥有者是不是愿意开放这些数据,比如涉及隐私的探头数据。其实在中国数据开放的条件远远比西方好,这也是AI在中国为什么能够遍地开花、部分结果的一个重要原因。
刚才提到,人工智能风生水起,视觉计算遍地开花。花是开了,但能不能结果呢?这里最关键的,是我们瞄准的是不是一个正确的问题,能不能给用户带来真正的价值。例如,是不是实现了人力的节省,性能的提升,成本的降低,或者成品率的增高和安全性的提升,等等。另外,算法不是万能的,总有它的局限,我们怎么用其它方式来弥补算法的不足,打通整个end to end的商业流程,这也是商业应用场景中要去关注和解决的问题。
总结起来,这就是视觉智能的五要素——算法、平台、数据、用户和商业。算法是安身立命之本;平台和效率决定这件事是否能够发生;数据一方面是利器,一方面也是束缚;用户决定了你做的事情是不是正确的事情;如果没有很好的商业模式,这一切都是无法长久的。
下面举几个例子,这是阿里巴巴,阿里云上的一些技术,有些已经成熟,有些正在做。第一个例子是电商的搜索。电商的图像搜索(通过拍照的方式进行商品搜索)解决的是文字之外的搜索入口问题。其实图像搜索的历史很悠久,商品搜索应该是最容易落地的,最有价值的场景。我们经常会碰到无法用简单的文字描述的搜索需求,电商中的图像搜索就是解决这个问题的。
从算法角度,我们需要商品检测和商品识别,以及商品描述,也就是怎么样用一串数字描述物体或者商品的本质特征;
从系统角度有快速索引、实时检索;从平台角度有索引和检索流程的平台化、流程化,从而不仅能服务自身的电商图像搜索,还可以服务于其他电商;
从价值角度,用户量和交易量就可以反映出来。如果一个商品的拍照搜索能有千万级的用户,每天有几千万的成交,影响力还是很大的。
商品图像搜索就技术要求而言:
第一是相关性,也就是,我搜出来是我想要的;
第二个是覆盖率,也就是无论搜什么,是否都能给你一个 reasonable 的结果;
第三是伸缩性,是指系统性能是不是能够实时的、大规模的索引和搜索;
还有用户体验,特别是当算法有缺陷时,怎么通过界面设计或其他方式来减少算法缺陷的影响,以提高用户体验,这在实际产品或服务中也是很常见的方法。
这是以图搜图的在线搜索流程,首先有图片质量判断和类目识别,第二是主体检测和进一步的主题质量判断,第三是特征提取和量化,第四是检索,第五是排序和搜索结果质量判断,最后是结果呈现,反馈给最终的用户。在整个链路中,深度学习贯穿始终。
我们来看一些例子,比如,当看到杂志里比较有意思的商品,可以直接拍照,看看淘宝上有没有卖,包括鞋子、衣服等。这是一个杯子,记得上次跟同事一起喝茶,看到泡茶的杯子很不错,之后再拍立淘上一看就知道它叫飘逸杯。
第二个例子是城市之眼,既包括卫星图片,也包括无人机以及地面上的摄像头数据的分析挖掘。它的目标是解决民生出行、环境保护,洪涝救助等。比如从算法上讲,有交通的民生出行的视频数据分析、有城市街区的搜索等;从系统上来讲,需要对大量视频进行计算处理,实时决策,快速索引,快速检索;从价值上来讲,有更好的通行能力,更少的人力,更安全的城市,更智能的城市。
这里需要的有大家常用的技术,如检测、识别、搜索、挖掘,还有系统平台。还有一些算法,虽然对应的数据处理量很大,但是拿来做算法研发的数据不是很多,例如双层车牌、多层文字的路牌等,量很少。能否用很少的样本训练出更好的模型呢?有一种解决方案是,我们通过“风格化自编码器生成对抗网络”,通过一些算法合成的以假乱真的特殊车牌、路牌,使得算法识别率能够显著提升。
还有一个数据量更少的例子,比如事故的检测,每天发生的事故有限,差异也很大。但是,你有大量的正常数据,这个时候我们可以通过时空异常检测的方法,也就是通过深度学习的方法,找三维重建的误差,从而发现时间、空间上的异常事件。
放大到城市视觉数据中心,试想如果我们能够及时处理整个区域所有数据,把所有数据放在一个索引里面,大家可以想一想这个威力将有多大。
第三个例子是视觉诊断,包括诊断机械(工业上)还是生物诊断(医疗上)。这与刚才提到的时空异常有一定的相关性,共同的特点是目标样本很少,目标样本之间的差异很大。这与通常的检测识别不同,这里我们需要做到的是 high recall 和 reasonable precision。这就是我们提到的从“大海捞针”到“桌面找针”,可以节约大量人力。
在医学图像识别中的CT结节识别,机器会比不那么资深的医生做的更好。当然在很多工业场景,比如像火车、隧道、煤矿、高压线等,凡是需要通过人眼或者摄像头来辨认的场景,都可以尝试用视觉计算的方法来解决。
第四个例子是视觉广告。广告是充分挖掘个人视频、娱乐视频价值的常用方式。广告的方式有很多,可以往里插入,可以往外导出。还有一种方法是对视频进行仔细地分析,进行相机跟踪、三维重建,并在场景中去检测平面,去寻找合适的广告位置。在候选完广告位之后,再进行实时的广告匹配,得到实时的嵌入式、植入式的广告效果。当然,现在大家在电视、电影上也能够看到,可惜基本是人工做的,而我们这个基本是自动做的,只需要非常少的人工。
直播场景不能很方便地把三维场景呈现出来,尤其是室内直播。这是若有一点交互,就可以把背后的这面墙变成一个广告墙。
我们刚才提到的对视云上的视觉技术,其实阿里的视觉智能计算统一称为阿里云眼或ET之眼,是阿里大数据平台上的智能数据计算中心,承载云上广泛深入的视频图像分析、识别、搜索、生成和挖掘服务。
这是阿里云眼的总图,底层有视觉数据和视觉相关数据的分析、识别、检测、特征提取,还有媒体库、索引库等,往上还有各种各样的应用。总体而言,主要分为分析类、搜索挖掘类和合成类。
视觉计算任务非常多,几个人、几家企业是无法完成这项任务的。我们要在存储、计算、机器学习的平台基础上构建一个生态,包括基础层的API算法,中间层的功能单元,最上层的解决方案,为很多人提供创新、创造和解决行业问题的机会,从而深入这些行业、打穿这些行业。这样,人工智能才能落到实处,人工智能才能真正发挥价值,才能让intelligence everywhere 能够真正实现。
谢谢大家!
新智元招聘
职位:COO
职位年薪:70 - 100 万(工资+奖金+期权)
工作地点:北京-海淀区
所属部门:运营部
汇报对象:CEO
下属人数:28 人
年龄要求:30 岁至 45 岁
性别要求:不限
工作年限:5 年
语 言:英语 + 普通话
学历要求:硕士以上
职位描述:
热爱人工智能事业,对行业及市场有深入的了解和人脉资源;
主持公司经营系统总体设计方案 ,负责全公司经营投资预算方案;
密切关注国际国内 AI 产业动向和趋势,评估重大信息技术的影响,为公司引进人才、技术以及开拓合作伙伴提出意见和建议;
定期为公司提出企业经营状况分析和前景预测报告,为重大决策事项提供数据支持和专项研究报告;
负责组织完善各部门制定与其专业管理相关的各项管理制度;
审查各部门工作汇报,评估工作效率并对存在的问题加以处理;
有知名企业或知名媒体机构工作经验者优先。
应聘邮箱:jobs@aiera.com.cn
HR微信:13552313024
新智元欢迎有志之士前来面试,更多招聘岗位请点击阅读原文查看。