实践者华先胜:写过几百篇论文,还是更关心技术落地

2020 年 10 月 27 日 CVer

点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

本文转载自:AI科技评论


作者 | 青暮

10月12日,2020年ACM Multimedia(ACM MM 2020)大会正式召开。受疫情影响,大会以线上会议的形式举行,这也是ACM MM 自1993年首次举办以来的第一次线上大会。
其中阿里巴巴集团副总裁、达摩院城市大脑实验室负责人、IEEE Fellow 华先胜主要领导完成了所有线上会议的筹备工作。
会议现场图片
ACM MM是多媒体领域的顶级国际学术会议,华先胜是本届大会的三名联席大会主席之一,也是三名主席中唯一来自产业界的。学术会议的大会主席负责大会的统筹工作,从会议委员会组建、选址、会场安排、会议组织、工作协调、现场管理等,事无巨细都由大会主席负责。这次大会从线下改成线上,更是给会议的组织工作带来了一系列的新问题。
尽管身在产业界工作繁忙,华先胜作为三位主席中的牵头主席还是承担了会议组织的主要工作。
多媒体技术或视觉智能是华先胜一直主攻的领域。DBLP统计数据显示,他在ACM MM发表过84篇论文, 几乎是他被其他学术会议接收的论文的总和。从某种意义上讲,ACM MM可谓是华先胜的“主场”。
华先胜不仅论文写得好,还擅长于科研成果的转化:阿里巴巴的城市大脑是多媒体技术的巅峰标志,也是华先胜的主要代表作。今日的城市大脑已经迭代至3.0版本,在全球范围内布局30多个城市,在这一领域形成了绝对领先的竞争优势。
“以前天天写论文就搞一点小小的技术转化,觉得很有成就感。但我还是觉得不对,还想做点更有影响力的事情。我想知道,产品线上的用户到底想要什么?” 华先胜对AI科技评论说道。
关于这个问题,他已经思考并为之践行了十多年。

1

微软亚研时期:拍脑瓜,写论文

华先胜第一篇ACM MM论文发表于2001年。这一年,他从北京大学博士毕业后入职微软亚洲研究院,在做实习生的三个月期间,他写了三篇视频文本检测论文,其中一篇发表在了ACM MM上。
华先胜实习时的导师是世界多媒体研究领域一流的科学家张宏江,ACM MM正是张宏江最为重视的“主战场”。
华先胜在博士期间的研究方向是数字水印。这项技术就是在图像或视频上嵌入不可见的水印,水印经过图像处理也去不掉,但是可以通过算法提取,并且图像或视频被修改后,也能通过数字水印知道被改动的地方。
研究方向虽然与之后的视频文本检测同属于视觉领域,但研究方法都是偏静态的,直到他去到了微软亚洲研究院后,才接触到了机器学习。

在更早之前,华先胜就读于数学系——当年华先胜从黄冈中学毕业后直接保送到北京大学,由于对数学感兴趣,在填志愿的时候“脑子一热就选了数学系”。
“到今天来看,我觉得一点都不后悔,因为在数学系的经历可以为人工智能打下很好的基础。” 华先胜告诉AI科技评论。
北京大学数学系是全国数学研究的“圣地”,而北大的人工智能研究也历来以数学与统计理论为第一原理。华先胜的博士导师是模式识别与图像数据库专家石青云院士,石青云教授也是北大数学系毕业,并在后来转向了信息科学领域。
从北大到微软亚研的这段时期也是华先胜研究思维发生转变的时期, “研究思维是一个螺旋上升的过程,在学校里学到了一种模式,到另外一个地方去后,可能会打破原来的思维方式,中间甚至会觉得很迷茫。我从北大到微软研究院是这样,在微软研究院的不同阶段也是这样。其实都是因为眼界开阔了,获取、处理信息的能力和创新的能力也变得更强了。”
正式入职后,华先胜开始做视频方面的研究。他和团队一起在多媒体研究领域取得过多项重要成就。包括自动电影、智能视频缩略图等在内的多项成果都已转化进微软的产品。其中,自动电影还入选了微软亚洲研究院十周年的12项顶级研发成果。
自动电影(Auto Movie)是Windows Movie Maker 的一个“五星级”功能。自动电影从原始家庭录像中选择重要的和有代表性的片断,并将这些片断连成一段视频,而且使连成的视频与用户指定的伴奏音乐的节奏和节拍吻合。其中的关键技术是视频分割、视频摘要、音乐节拍和节奏检测,以及视频和音乐的匹配。自动电影能使对视频编缉知之甚少的用户能够快速编辑出很吸引人的家庭录像。
后来,张宏江担任了微软亚洲工程院院长,华先胜所在的组解散,成员们开始了各自的探索。华先胜在网络多媒体组时,慢慢地从电视和个人媒体,转向了其他场景。他看准了两个方向,分别是视频搜索和视频广告。
视频搜索,即对视频内容进行检索。在这时候,华先胜还是以研究员的角度思考问题, “很多时候,我们就是观察微软的产品,观察用户的需求,拍拍脑瓜觉得这个东西很重要,有的就会成功,有的就会失败。”
自动电影是华先胜的研究项目中比较成功的案例,他们也做了其他电视相关的研究,其中就有很多最后没有被用起来。
视频搜索也是华先胜“ 拍拍脑瓜 ”得到的灵感,“我当时在想,能不能突破文本界限,把搜索引擎做到视频里面去,比如搜到视频里面的某个对象、某个场景,有什么人发生了什么事情。”
在开发过程中,华先胜的团队在技术上取得了很多突破,这些技术最后也应用到了微软的其它产品里面。也是因为这个研究项目,华先胜于2008年获得麻省理工学院技术评论TR35奖。
然而直到今天,互联网的视频搜索引擎都没有做到检索视频内部的元素,只是把视频作为一个单位(目前只有安防领域做出了相关产品),“视频搜索和视频广告这两个方向都太超前了,今天才是合适的时机。”
时机的成熟,不单单是指算力和数据量的爆发以及深度学习的崛起,还有技术方和应用方的意识层面, “技术和应用的这两方之间的沟通,我觉得还不够。过去做视频项目的人更多还是做视频的存储、管理和数字化,并没有从索引上着手。当然最重要的,还是因为挖掘出了商业价值。”
精神超前,是微软研究院的特点。华先胜提到,他在离开微软之前,产品部门还曾找过他,问一篇论文的代码是否还在。华先胜一看,发现是一篇他十年前发表的论文。
只是大多数时候,超前的技术不能实现商业价值,从而也就无法建立影响力。 “其实我自己做研究的特点是让它在商业上成功,这是把技术变成生产力,是我最关注的事情。”
查看华先胜的Google Scholar页面,可以看到他引用最高的论文是Tag Ranking,“这个技术我很喜欢,但是应用上很难,因为适合的场景是社交媒体。”

正如他自己所说,自己最关注的是技术的应用,微软研究院超前的研究氛围或许反而给他造成了束缚。这让他又经历了一次迷茫。
在微软亚洲研究院呆了9年后,华先胜做出了一个令人意外的决定。

2

转战微软产品组:不留后路

2010年年底,华先胜飞往美国,进入了微软的必应产品组。
华先胜一共在微软呆了14年的时间,分为三个阶段,在微软亚洲研究院九年多,在产品组两年,最后在微软美国研究院两年多。
“中间决定的两次转换过程中,很多人都觉得我脑子坏掉了,尤其是第一次,但对于我而言是很自然的,我本来就追求学术和产业的结合。”
在此时,华先胜已经写了200多篇论文,也是微软亚洲研究院里技术转化最多的人之一,但他还是想亲自走上战场前线。
“处在外部做技术转化是一种方式,但真正敲进门后,感觉肯定是不一样的。你屁股坐在那了,和你屁股坐到外头是不一样的。”
当时,沈向洋曾经建议他做Rotation(轮换),意思是人事关系不变,在产品组呆的觉得不好就回到原来的地方,或者呆到自己满意就回去。
华先胜拒绝这么做, “我说我不做Rotation,我要把后路切断,然后跳进去,不这么想事情就做不好。”
他后来离开微软进入阿里巴巴时,也是抱着相同的想法。 “这是工业界的规则,不这么做很多事情都很难实现。学术界氛围更加友好,这不是坏事。但在工业界就是前线作战,要看准山头、制定战术带人去攻打。”
华先胜直接进入了产品组,进去以后,发现了很多自己从来不知道的事情。
他原来在微软亚洲研究院做视频图像搜索的研究,到了产品组做的是图像搜索的leader。这两个方向看上去很接近,但华先胜花费了三个月的时间才搞清楚产品组做的事情。
“他们做的基本上是数据处理流程方面的事情,而视觉方面的技术用的很少,那时候还很少称这些技术为人工智能。”
华先胜想着,他到这里不是来做流程上的东西,这不是他的优势。第一没有带来价值,第二他自己也不会得到成长,“所以我就去开启了另外一个方向,大量的把计算机视觉技术,用到了图像搜索引擎,其中结合了团队自己研发的技术,以及微软亚洲研究院的技术。”
在这期间,华先胜感受到了做研究和做产品的不同, “研究很多时候是从自己的兴趣和自己的观察出发的,做产品则是要从用户角度出发的,就是你给用户带来什么价值。”
进入阿里巴巴以后,华先胜总结出了三种用户价值。 第一种叫锦上添花型,用户可能想到也可能想不到,但没有也可,不是刚需;第二种叫雪中送炭型,这是刚需;第三种叫无中生有型,用户原本没有这个需求,是技术创新挖掘出来的,但也能变成刚需。
第三种用户价值最明显的例子就是手机大屏,手机本来根本就不是用来看的,是用来打电话的,但今天没有大屏的手机基本不会有人买。
这段经历让华先胜形成了在产品和研究之间来回跑的工作模式,到了阿里巴巴之后也是这样。

3

阿里巴巴时光:深入场景,适得其所

对于阿里巴巴和微软之间的比较,华先胜的感受是:阿里巴巴在产品和技术落地上更有优势。
这也是基于阿里巴巴具备应用场景的优势, “阿里巴巴有电商场景,在此之上做图片搜索有绝对的优势。自带大场景,也是阿里巴巴人工智能的一大特色。”
华先胜的团队推出的拍立淘后,仅在2015年双11当天,就有千万消费者使用拍立淘购买了数千万元的商品。今天,以图搜商品已成为喜欢购物的年轻人的刚需。
华先胜还举了智能设计的例子。智能设计利用深度学习和强化学习技术,可以短时间内大量生成不同的广告图像,同时让其遵循一定的模式,并且相比套模板方式有更大的创新性,现在已经成为大促时期网店商家的必需品。“2017年双11的时候是有7亿多个的广告Banner需求,其中4.1亿是通过算法完成的,在几天的时间里每天产生5000万个Banner,产生以后就能上线使用,不需要任何人工干预。”
在阿里巴巴的这段经历,让华先胜体会到了从技术研发走向产品转化的过程中,视野和思维发生的三个变化。
第一,从技术到产品的转化过程中,也从小数据走向了大数据。“我们做研究的时候看到的数据,再大也是小。“互联网上的图片视频,这是十亿到千亿量级的数据,要在这个数据量上让算法做到有效,做得有价值,难度就大得多,要考虑的因素也非常多。”
第二,从技术到产品转化时,因为产品是面向用户的,所以思路是反过来的。首先要看用户怎么想,再去想需要什么技术,这其中也包括第三种用户价值。
第三,从拍脑瓜到看用户喜好,“技术研发过程中,很多时候我们是凭想象觉得这个东西可能用户是喜欢的,但是真正用的时候用户不见得喜欢。”
产品转化后,就能接触到更多的信息反馈。比如一个功能发布后,就能获得用户的使用情况、反馈、点击率等等比较客观的数据。
“但是也不能完全迷信数据,因为数据变量之间的因果关系并不明确,还需要人的洞察。比如说有人发现吃冰淇淋和游泳意外的关系很强,吃冰淇淋多的时候,游泳意外也比较多,那是不是因为吃冰淇淋引起意外?其实根本就不是那么回事,是因为都是夏天。数据和真实之间,还是有gap的。”
深入行业之后,就能发现无限的机会。例如很多企业都在做视觉技术的研究。”但不走出实验室,你会想到猪脸识别可以用来养猪吗?
而不深入行业,或许也不会诞生城市大脑这么大胆的想法。
但就在2016年王坚提出城市大脑的时候,不仅外部怀疑,内部也持怀疑态度。
“没有几个人相信这个事情是可做的,不管是商业上可行还是技术上可行。当时我是相信的,我也是第一个带团队进入的。城市大脑不是光处理视觉数据,但是视觉毫无疑问是其中最重要的一环。我是做视觉的,关注视觉的应用落地,所以当时我是相信这个事情是能做出来的。”
如果没有视频,就没有城市大脑,这是王坚亲口所说,华先胜说道,“虽然也可以做一个轻量级的、没有视频的城市大脑,也有人是这么做的。但这样的话,数据量最大的数据 - 视频数据的价值就没有挖掘出来,而现在时机已经成熟,怎么能错过?”
即便需求和价值可以保证,但仍然必须克服成本巨大的问题,“我们当时对城市视频中的人、车、事、物做彻底的分析、搜索,最大的问题就是成本。后来我们做了大量的优化,同时保证算法精度,到今天已经没有人诟病成本的问题了。等成本的问题解决了以后,就是能不能给客户带来真正价值的问题。”为了深入行业,华先胜的团队还和一线交警进行了大量的交流。
经过了大概半年到一年时间,城市大脑团队看到了成功的可能性,大规模视频处理开始运作。
到今天,城市大脑已经在交通优化、环境治理、寻找走失老人和儿童、追查肇事车辆等任务上大展身手。
如今杭州的城市大脑在与交通数据连接的试点区域,通行时间减少15.3%。在主城区,城市大脑日均事件报警18000次以上,准确率在95%以上;萧山区通过对特种车辆的优先调度试点,实现了救护车到达现场的时效增幅50%。
“这些数字一出来,大家都知道城市大脑是可行的、有用的,而人力无法解决这些问题。”
华先胜认为,城市大脑是多媒体领域的重要标志场景之一。
“因为从它的规模、数据量、对算力的需求、问题的复杂度和问题的多样性来看,城市大脑是一个非常综合的多媒体智能信息处理系统。”
城市拥有大量的视频、图像、网络文本等数据,有结构化的,也有非结构化的。这里面涉及到大规模系统的问题,而不仅仅是算法的问题,当然算法本身还要不断突破。
人工智能的算法应用需要解决三个问题,准确率、覆盖率和效率。 像城市大脑这样的复杂系统,效率是其中非常关键的问题,包括系统的整体性能、稳定性、系统的开放性、系统的安全性等等。
以城市大脑为例,华先胜总结了AI创新的基本流程,即从项目到产品再到平台。
项目就是深入场景、深入行业,在研究中行得通的方案,在真实场景中总是不免出现大量问题,要在真实数据里面得到检验,在里面做迭代,以项目来推动,先把项目的问题解决。
通过多个项目的迭代积累以后,就能呈现出来产品。这里面不仅仅涉及技术的问题,一是技术的研发成熟度,二是产品是否能满足用户需求,弄明白哪些是刚需。弄清楚这些问题,才能知道什么是可以批量复制的产品,同时技术也得到了沉淀。
然后是搭建平台,在此平台之上,研发人员可以将精力集中在数据和算法上,平台的效率、稳定性、容错、调度这些事情全由平台自己解决。最后就是构建生态,然后你的产品就能成为别人的标准。
“就像电商平台一样,不会每个人都去搭建个电商平台,这是少数人做的事情,然后商家可以上去更便利地做买卖,同时也要遵守平台的标准。城市大脑也是一样的,有了平台层,就能形成一个生态基座。”

4

跨越学术与产业

作为ACM MM 2020的主办方,阿里巴巴在多媒体领域拥有大量创新技术,并率先实现大规模产业落地。
例如,达摩院在视觉、语音、自然语言等技术领域斩获了60多项世界第一,基于达摩院视觉AI技术的城市大脑已落地包括杭州、北京、上海、郑州、海口、中国澳门等在内的全球30多座城市。
阿里巴巴在学术界发声比较晚,直到近四五年才开始在学术界崭露头角。而多媒体领域本身就符合阿里巴巴的超大规模场景技术研发和应用落地的特点,加上有华先胜这样在学术研究和产业应用中切换自如的科学家推动,阿里主办ACM MM可谓正当时。
华先胜表示,企业要承办学术会议,除了要有技术的实力,在学术界也得有一定的影响力。同时阿里也希望让更多人了解大规模场景下多媒体技术的进展和面临的挑战,使得学术界更加注重产业界的需求,同时也让研究者从理论研究走到场景中去,从而碰撞出新的火花。
“深入场景有几个因素,第一是场景里面的信息,第二是场景里面的逻辑,第三是场景里面的真正有价值的问题。将这三个因素结合起来,实际上加入了很多的先验知识在里面。也就是说,加入了很多人类的判断,这个通过数据是很比较难学到的。实际上,这在某种程度上就解决了深度学习黑盒等技术难题。” 华先胜告诉AI科技评论。
今年的ACM MM大会中,深度学习依然火热,投稿中有1/3是深度学习方向的论文。而第二大方向是视觉和语言的结合,视觉转换为自然语言,自然语言转换为视觉信号,或者他们之间的互相比较、互相搜索、特征提取,多媒体的chatbot等等,一直是视觉研究领域追寻的目标,也是非常困难的课题。
深度学习、大数据处理和算力为这些方向的进展带来了新的思路、进展和希望。还有些方向也收到了不少的论文,例如媒体内容深层理解,多模态媒体融合,媒体搜索和挖掘,创新多媒体应用等等,都有100篇上下的论文提交。
华先胜认为,深度学习目前在理论方面还很欠缺,但是在应用方面进展还是非常顺利的,“深度学习并没有完全变成一个黑盒,包括模型网络的设计、数据的处理、训练策略等等,其实也是有规律可循的,是需要深入钻研和创新的。” 
有些人提到深度学习过分依赖数据、复杂度高、可解释性不好,但华先胜认为这并不是深度学习独有的问题,传统的机器学习也一样。只是因为深度学习取得了很大的突破之后,它的问题暴露得更加明显。
“传统的机器学习同样依赖数据,会被数据引入偏见。至于可解释性问题,由于传统机器学习会引入更强的假设,如果假设错误,那么模型也会很容易出错。
反而在实际应用深度学习的时候,如果它犯了错误,很多时候还是大概知道出错的原因。传统机器学习则是有好解释的地方,也有不好解释的地方。
至于计算量大的问题,跟传统机器学习相比,深度学习处理的数据量大,成本也高。但是训练并不是每时每刻都在进行的,而且在推理的时候可以做很多的优化,使其效率更高。
这些问题都不能阻挡深度学习在解决实际问题上的能力。”
华先胜还认为,打通人工智能基础研究与产业应用至关重要,“关于人工智能的基础研究,学术界不能跟风,全部都去做产业,还是要有一部分人要去做基础的研究。但是也可以到工业界里积累一些经验再回去。”

5

尾声

今年的ACM MM已经结束,最佳论文和最佳学生论文最终花落南开大学和西安交通大学。
而在华先胜最为看重的“深入场景”上也取得了长足的进展。医疗AI分析、多媒体内容理解是今年会议热门的关键词。在会上,来自全球各国的专家指出,新冠疫情暴露了人类在应对医疗卫生事件领域的诸多问题,医疗机构正逐渐应用自动化工具来解决这类问题,如通过CT图像辅助诊断、应用AI技术进行疫情预测已经成为新的趋势。
华先胜总结道, “今年大会为工业界和学术界展示了未来的研究方向,预计深度学习在多媒体领域中的检测跟踪、识别分类、特征提取、编辑合成等方面将持续成技术研发的主流,另一方面,医疗和AI的结合也是不可逆的趋势。” 期待下一届ACM MM带来的惊喜。
回望华先胜近20年来的时光,他在这过程中经历了多次迷茫和思维转变。从微软超前的研究团队转向产品组,他体会到了技术思维和产品思维的不同;而后在阿里巴巴的电商和城市大场景下的历练,更铸就了他非凡的洞察力和广阔的视野;最终他仍不忘学术初心,坚持在多媒体学术界耕耘。如今他已经能在工业界和学术界之间游刃有余,而这份勇于改变和坚守的精神,更加令人钦佩。
AI科技评论祝愿他给人类带来更多的技术变革,并期待他的下一次蜕变。

下载1


在CVer公众号后台回复PRML,即可下载758页《模式识别和机器学习》PRML电子书和源码该书是机器学习领域中的第一本教科书,全面涵盖了该领域重要的知识点。本书适用于机器学习、计算机视觉、自然语言处理、统计学、计算机科学、信号处理等方向。


PRML

下载2:CVPR /  ECCV 2020开源代码


在CVer公众号后台回复:CVPR2020,即可下载CVPR 2020代码开源的论文合集

在CVer公众号后台回复:ECCV2020,即可下载ECCV 2020代码开源的论文合集


重磅!CVer-论文写作与投稿交流群成立


扫码添加CVer助手,可申请加入CVer-论文写作与投稿 微信交流群,目前已满2400+人,旨在交流顶会(CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等)、顶刊(IJCV/TPAMI/TIP等)、SCI、EI、中文核心等写作与投稿事宜。


同时也可申请加入CVer大群和细分方向技术群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。


一定要备注:研究方向+地点+学校/公司+昵称(如论文写作+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群



▲长按加微信群


▲长按关注CVer公众号

整理不易,请给CVer点赞和在看

登录查看更多
0

相关内容

华先胜,现任阿里巴巴集团副总裁/高级研究员、阿里巴巴达摩院城市大脑实验室主任。华博士是国际电气与电子工程师协会会士,美国计算机协会杰出科学家;2008年获MIT技术评论“全球35个35岁以下杰出青年创新者”称号(TR35)。1996年和2001年毕业于北京大学数学学院,分别获学士和博士学位;之后工作于微软亚洲研究院,微软美国必应搜索引擎,以及微软美国研究院,从事多媒体、计算机视觉和机器学习方面的研发工作。2015年4月加入阿里巴巴,负责大规模视觉智能计算的算法和系统研发。
一份硬核计算机科学CS自学修炼计划
专知会员服务
43+阅读 · 2021年1月12日
CMU博士论文:可微优化机器学习建模
专知会员服务
59+阅读 · 2019年10月26日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
CCAI 2019|视觉语音语言多模态论坛嘉宾介绍
中国人工智能学会
12+阅读 · 2019年9月3日
【月薪3万起步】一文读懂AI紧俏人才计算机视觉工程师
七月在线实验室
11+阅读 · 2019年3月16日
Arxiv
0+阅读 · 2021年2月1日
Stochastic Subset Selection
Arxiv
1+阅读 · 2021年1月29日
Arxiv
5+阅读 · 2020年12月10日
Arxiv
8+阅读 · 2018年4月8日
VIP会员
Top
微信扫码咨询专知VIP会员