创纪录的CVPR2017落幕了!
值此良机,华人视觉学者们欢聚一堂。作为视觉求索的真朋挚友,大家敞开心扉,畅所欲言,共议视觉研究的前沿未来,如何更好地打造华人视觉学者社区。
时间:7月21日晚
地点一:Royal Garden Restaurant
聚餐中的众学者。
与会的华人视觉学者
林倞、代季峰、朱毅𨫎、华刚、周翔、尹朝征、杨建朝、韩玫、杨叶舟、华先胜、吴建鑫、金海琳、田英利、林元庆、黄俊洲、冯佳时、蔡剑飞、刘小明、王兴刚、肖京、汤晓鸥、王晓刚、吕乐、陈梅、袁浚菘、俞天力、喻颋、杨铭、凌海滨、张正友、刘燕西、陶海、丁晓伟、周纵苇、罗杰波、周少华、孙剑、王珏、田奇、王亦洲、杨杰、梁建明、刘自成、朱松纯、吴郢、戴声扬、梅涛、高涛、李伏欣、屠卓文、虞晶怡、林哲、杨睿刚、杨林、王井东、刘威、陈熙霖、陈长汶、郑冶枫等。
地点二:Hilton Banquet Room
发言
# 周少华(西门子首席科学家)
首先,感谢大家参加本次联谊交流会。本次活动获得了赞助商的大力支持,在此一并表示感谢。
商汤科技Sense Time:Time to make sense
地平线Horizon Robotics:打造万物智能
百度Baidu:百度一下你就知道
文安智能VionVision:挑战智能极限!
体素科技VoxelCloud:数据驱动精准医疗
平安科技Ping-An:科技引领金融
旷视Face++:更好地读懂世界
亮风台Hiscene:专注增强现实 引领人机交互
我给大家汇报一下视觉求索的基本情况。自去年11月底开刊以来,共推送了17篇文章,总阅读量逾410,000,总用户数近17,000,可以说是得到了大家的厚爱。借此机会呼吁一下,希望大家踊跃供稿,把视觉求索作为大家共同的平台,共同努力建立一个更好的社区,为华人视觉学者服务。
# 朱松纯(UCLA加州大学洛杉矶分校教授)
首先感谢以周少华为 “秘书长”的组委会,成功组织本次“华人视觉学者联谊交流峰会”,非常高兴见到这么多老友新朋。 今天来聚会的人, 有三个身份的认同: 华人、视觉、学者。下面我就这三个身份, 谈一下我个人的感想。
一、华人。 傅京生和Tom Huang教授是我们的前辈,自70年代以来,他们培养、提携了华人的梯队, 同时也为我们树立了华人学者治学、为人之典范。 几代学者传承下来, 我们非常团结,成为计算机视觉领域一支十分重要的队伍。20年前开会, 我们聚在餐馆吃饭,有法国来的张正友、权龙等人,像是孤魂野鬼。到今天已经是群英荟萃。今天我们作为华人视觉的学者是很幸运的, 特别是中国的快速发展为我们中间的很多人提供了很大的舞台、可以施展自己的才干。 同时也使得我们的思想、立场多元化,今后大家要进一步加强沟通、促进友谊和合作。过去我们都从这个群体的交流中学到很多、也得到无私的帮助,未来我希望有更多的年轻人加入进来。
二、视觉。计算机视觉以前是“穷居闹世无人问”,大家找工作都不被人待见,现在是“富在深山有远亲”,一堆大公司通过猎头到学校来挖人。在这个大好形势之下,我看到至少两个隐忧。其一是计算机视觉学术的传承。CVPR开会注册今年有5000多人,我看到开会注册的人排起长龙, 绝大多数是年轻的面孔,我相信这里面大多数是来看热闹的。 计算机视觉的核心问题是什么, 有多少问题真的得到解决? 用目前的深度学习、神经网络方法能解决到什么程度?我们学科有没有一套成型的、完整的理论框架? 现在关心这些问题的年轻人极少。大学实验室已经被挖得千疮百孔了,等这次热潮退去之后,我担心这个学科可能会出现断代现象。其二是视觉学科能否独立存在。我以前谈到过,1980年代,人工智能领域以逻辑推理为基础的框架瓦解了,就像中国的周朝, 从而进入了一个“春秋五霸”的时代,也就是 视觉、语言、认知、学习、机器人这几个领域独立发展, 互不相干。现在进入一个交叉发展的“战国时期”,似乎是在走向统一。 人工智能这个名词在沉寂30年后,又红火起来。那么你可能要问的是, 到底谁统一谁, 哪个领域是秦呢? 这就取决于哪个领域的理论内核比较坚硬、队伍更强、有对本学科的身份认同。以前我是很看好计算机视觉队伍的, 最近就有些担心了。这个问题希望大家思考。
三、学者。学者这个名称比较沉重, 因为它代表了对学科、甚至对社会的一种责任感。吴郢以前提到过, 学者并不是说你一定留在大学当教授, 它是指一种内心的价值取向和人生态度、一种追求真理的情怀。 不管我们目前坐在产、学、研的哪个位置, 都要保存学者本色,忧乐天下。
总之, 我们正处在一个急剧变化的时期, 这让我想起了英国著名作家狄更斯在其描写法国大革命的《双城记》中的名句:
“这是一个最好的时代,这是一个最坏的时代;
这是一个智慧的年代,这是一个愚蠢的年代。”
# 汤晓鸥(香港中文大学教授、商汤科技创始人)
感谢松纯和少华组织这次活动,很高兴能见到这么多好朋友。就简单说两点。
首先,随着深度学习的发展,现在一些计算机视觉技术都超过了一条红线:计算机视觉算法的能力在一些特定任务上超过了人的能力。比如我们实验室在2014年全球首次在人脸识别算法上超过人眼,从而开启了人脸识别技术的工业级应用。
实际上,计算机视觉技术的工业级应用以前是非常不容易的。记得2005年左右,我从Harry手上接管微软亚洲研究院视觉计算实验室,Harry曾经对我说:“我们已经发了很多文章,现在应该利用我们的研发力量和微软的大平台,做一些有影响力的工业级应用,让视觉技术真正用到工业产品中。” 可实际上真正做起来的时候,发现非常难。要把一个技术真正运用到产品里,要过很多道关,最后我们几经辛苦才把几样技术做到了Messenger和Bing搜索引擎等产品里,花了非常大的力气。现在,有了深度学习这个新的技术,从学术创新到产品落地的周期大幅缩小,学术和产业的结合变得更加重要,我们可以迅速的从应用场景中找到新的问题,并能够迅速在学术上和实际应用中把问题解决。
商汤目前有400多家合作伙伴公司,拥有数十种应用场景和大量的实际数据、计算资源,可以在实践中发现很多新的课题和新的应用。商汤正在跟学术界一起,就这些课题开展合作研究。公司可以为合作实验室提供数据、计算资源、funding、标注能力,工程人员和实习生。即使有了深度学习,计算机视觉还是需要很多基础的创新性研究,才能更好的在实际应用中发挥作用。所以,商汤希望能和大家开展更多的合作。
第二点我想谈的是一个个人的请求,希望大家帮忙。今年初,我开始担任IJCV的主编editor-in-chief,压力很大,大家都知道,IJCV和PAMI是我们计算机视觉领域的两个顶级杂志,今年IJCV的影响因子已经超过了8。我很希望能有更多的亚洲学者在这两个顶级杂志上多发文章。另外,如果大家有兴趣,愿意为IJCV服务,加入editorial board做编委,可以与我联系,我会在适当的时机推荐。希望大家能够多多支持、踊跃投稿。总而言之,希望亚洲的学者、中国的学者,能够做出更多原创性的研究,多参与学术界顶级会议、顶级杂志的服务和组织活动,共同引领全球计算机视觉在学术和工业应用上的进一步发展。
# 杨杰(NSF Program Director)
我以前不是学视觉的,后来被赶着鸭子上架,开始做一些视觉的工作。视觉以前是我的副业,现在是我的主业。虽然我现在已经不做具体研究工作了,我可以分享一下我做视觉研究的三点体会。
第一,要放开思路想问题,不要想当然地认为不可能。我做的第一个视觉项目是人脸的实时跟踪。我在1995年在奔腾486上实现了每秒三十帧人脸跟踪。当时做视觉的人认为颜色是一个不稳定特征,认为不应该用来做人脸跟踪。但我在理论和实践上都证明了它的可行性。
第二,做学问要严谨,不要轻易地假定别人做的工作都是对的,不要轻易地跟风。我目前引用率最高的一篇文章,就是发现了两篇PAMI文章都犯了错,同一个做语音识别的学生花了七天时间做了一些研究,写的一篇两页纸的文章。
第三,要做有用的东西,但学术界要做有前瞻性的工作。我1995年开始做视觉在desktop上的应用,1998年开始做meeting room 的应用,然后做nursing home 的应用,1999年开始做在移动设备上的应用。总之,我做的很多工作都超前了潮流几年时间。我希望这些体会对年轻的学者有所帮助。现在是视觉研究的一个顶峰时间,希望大家能够把握好机会和方向。
# 罗杰波(罗切斯特大学教授)
我从2000年第一次参加CVPR, 到今年2017年已经是第16次。毕业之后我在工业界先是呆了十五六年,然后又到学术界呆了六年。最近, 又担任业界的顾问。
和现在很多学术界到工业界的人相比,我像是在反潮流。当一个人随着大流的时候有的事不一定看得清。如果你反着人群走的时候,有的事可能反而看的清楚一些。
现在学术界跳到工业界的人很多,还有一些人在纠结到底是留在学术界还是去工业界?我就对这个问题讲两句吧。
首先,刚才晓欧说的很对。在工业界,要做出好的产品,好的东西,实际上是要花很大力气的。我以前在柯达的时候也做过产品。比如在人脸检测技术成熟之前就必须做海量照片自动红眼去除。做产品的时候对精度速度和其他一些因素的要求是非常高的。这一点和写写文章是很不一样的。所以我能理解像商汤、旷视等公司是花了多大的力气才让人脸识别这个技术在实用性上取得了真正的进步。
同样的来说,在学术界要做好的学问,做一个好的学者也需要花很大力气的。这点上我就很钦佩朱松纯。在一个理论领域,一个理论体系下连续耕耘很多年,做出些真正有用的东西。
其实,不论在学界还是在业界,我觉得有一点都是相通的。那就是一定要有一个工匠的精神或一个学者的精神。要 do what's right,做what works。这样的话,不论你做学问还是做产品,才会产生真正的影响。学者精神,其实松纯, 吴郢在"视觉求索"上的文章中也以不同的形式阐述过。
我们华人在视觉这个领域能达到今天这个地步,实在是很不容易的。我希望我们大家一起珍惜已经取得的成就,同时把今后的工作做得更好。
有一个工匠的精神,有一个学者的精神,那我们不管做什么事情,不管是在学界还是业界都会很成功,都会产生很大的影响。
# 吴郢(西北大学教授、CVPR17 Program Co-Chair)
首先感谢少华的辛苦努力把大家聚到一起,也感谢大家的慷慨捐赠,使得我们新老朋友们又能在一起畅谈。
刚才松纯讲的三点认同我觉得是非常重要的,讲得非常好,非常有深度。我只是接着他的话,狗尾续貂几句。
咱们这些人,不管现在职业角色不同,但本质上首先都是学者。大家不管在学界还是业界,都为推动视觉和人工智能的发展作出很大的贡献。在当前AI如火如荼的形势下,大家还是应该保持自己的学者本色。学者不仅仅是知道know-how的解决“how to do it”这个问题的人,而更应该是去拷问“why do we do it”的人,进而成为回答“what is it”的人。学者的本色基本来源就是critical thinking,这样才能不跟风地独立思考。坚守学者认同,不管咱们在学界还是在业界,不管沧海横流,方显英雄本色。
第二个认同,是对咱们视觉community的认同,进而对整个视觉community的责任感。CVPR这是咱们的identity。虽然现在咱们community看着热闹非凡,但是我们要看得长远。5000人的CVPR固然是一场盛宴,但也许也就只是一个大party。为什么呢?应为咱们整个视觉的community的一大问题就是缺乏明显的identity认同:到底什么是计算机视觉?现在的形势是视觉成了别的领域的试验场,而咱们视觉自己要去真正解决的问题却被耽搁了。这是手段和目的的本末倒置。松纯对AI几个领域的分析很深刻。如果咱们还在为刷榜的进步沾沾自喜,那么咱们真会变成温水里的青蛙。如果连咱们都不去defend咱们自己的领域,慢慢地视觉的阵地失守,咱们的community也将会不复存在,那样咱们的cvpr identity也就成为枯落。所以,健康的发展,一方面要坚持研究vision本质的问题,另一方面要鼓励多元化和交叉。这缺一不可。这是咱们的责任。
第三个认同,是对华人identity的认同。华人在视觉community的贡献是越来越大,不管是学术的还是工业界的,这一点勿容置疑。视觉圈的华人很团结,这是非常好的,这要一代一代地承接下去。由于华人的文化和价值观和西方的不同,慢慢大家体会到了发展的瓶颈、天花板,甚至直接就是眼前的一堵墙。天花板的打破,绝对不是个别individual的成功,而是这个族群大量individual的visibility,进而造成整个族群的成功。而华人却被一个很平常的因素约束了:就是名字拼音化。一般而言,华人的last name没有信息量,基本是靠first name来辨识的。这个西方的情况正好相反。但沿用西方的习惯,用initial来代替first name时,那咱们的名字基本没信息。随便找一篇华人作者的论文,authors'name和噪声无异!我做好几个期刊的编委,需要对送审的文章找到最合适的审稿人。我一定会到文章的参考文献去找。结果倒好,全是诸如S.Zhu, J. Luo,S.Yan这一类张三李四般的名字。这对AE去找reviewer造成很大的麻烦。西方人本来就对东亚人脸盲,现在再来一个name blindness,这对咱们的individual visibility造成巨大的困难。其实这个问题也好解决:不管参考文献占不占篇幅,咱们把所有作者都写全名。所有的人都齐心协力,不断强化咱们名字的identifiable pattern,这样用不了多久,每个人都会有自己的individual identity,这进而对华人整体成功会有推动作用。
# 刘燕西(宾州州立大学教授、CVPR17 Program Co-Chair)
做为CVPR program co-chair, 欢迎大家! 很高兴看到这么多中国的年轻学者,只是女生少了一点。一点有趣的观察:在座位的女学者都与CMU有关,包括我。最后祝大家德智体全面发展,多打太极拳。
# 陶海(文安智能公司创始人)
1. 计算机视觉技术经过这么多年的进步,很多应用方面的算法水平终于达到了可以大规模产品开发和推广的阶段。这得益于深度学习算法的进步,高清视频(1080p和4K分辨率)的普及,和高性能低功耗低成本处理器的出现。未来几年,将持续看到这方面的发展,扎根于各行业更多的CV公司将涌现。
2. CV创业公司将面临两个非常关键的决定。要不要做硬件?要不要深入垂直行业成为全解决方案提供商?根据每个公司的实际情况,答案都会很大不同。
3. 文安智能这些年来做CV技术产品化,从feature + classifier,到今天的全面CNN,对技术一直紧密追踪和不断创新,在实际产品化当中愈发看到很多关键的课题亟待大家一起解决。比如要做一个基于图像的森林火焰烟雾检测器,样本非常稀缺,这就需要研究小样本问题。这种情况在实际系统开发中是非常常见的。再例如要识别丰田Camry最新车款,只有几张宣传图片,根本采集不到大量实际上路图片样本,怎么办?人看到一个新物种,只要看一眼,以后不管什么角度光照和nonrigid pose,都能认出来,我们是不是可以考虑建立两个网络,一个处理pose,illumination,non-rigid等invariance, 另一个处理appearance。这一类算法开始出现,但是得work得很好才行。此外还有场景adaptation问题,1000+1类问题等。
4. 学术与工业界比以往任何时候更加水乳交融,工业界工程化和刷榜的资源与能力远远强于学术界,这样学术界就必需比工业界在思想上更加前瞻和大胆。网络怎么进化?在什么样的结构空间里?逻辑与时间能不能比简单的CNN + RNN更好地结合,比如在CNN内部,Space-time CNN?逻辑推演的belief propagation和回归BP怎么链接在一起end-to-end,避免一切都需要differentiable?当然还有很多更加fundamental的AI问题。期待未来不断看到这方面的突破。同时,相信这种突破也会瞬间应用到实际产品中。
5. Life long learning!上了CV这条船,可以一直enjoy learning。
# 华刚(微软Principal Research Manager)
计算机视觉处在一个非常令人兴奋的时期 -- 很多基础研究的问题仍然有待于进一步被解决,但很多计算机视觉的技术也进入了可以应用的阶段。对于每个研究员来讲,很重要的一个事情是发现自己的真正的兴趣,在基础研究到应用研究的横轴上找到自己的定位。为整个领域的发展作出自己的贡献并实现自己的价值。一个研究领域需要各个方面的多样性研究人员共同推进领域的前进和发展。所以无论你是做基础研究的还是应用研究的,大家应该相互尊重,相互支持。
另外,大家在做好自己的研究的同时,在领域里面也要有参与感和责任感。也应该在力所能及的范围内参与整个领域的学术服务工作。我们应该有更多的年青的研究员站出来为领域服务。要能够有效的为领域服务,我们应该更好的熟悉整个领域的章程和各种服务的程序,这样能够在推动整个领域发展的过程中发出自己的声音,贡献自己的力量,发展自己的职业。最后,大家在力所能及的范围内,要大力扶持下一代年青研究员的职业,相互支持,共同发展!
# 虞晶怡(上海科技大学教授及叠镜公司创始人)
计算机视觉现在处于发展最好的时间。大家经过10年,20年的累积,正将逐渐成熟的技术转化生产力。我个人现在一边在学界,一边在创业,虽然内心忐忑,但又充满希望。在这属于我们的时代,华人学者们能够团结一致,必将开辟一个新的智能视觉纪元。
# 孙剑(旷视首席科学家)
和大家聚在一起很高兴,CVPR参加了14年,终于找到一个相对固定的组织了。分享两点:专注和创新。
第一点是专注。我以前是个摄影爱好者,但由于手机摄像头的进步,逐渐放下了笨重的相机,加入手机拍摄大军。但是去年有一天我想打印一些家人的照片贴家里,猛然发现手机上竟然选不出几张好的照片,更别提手机照片的打印效果了。我已经停止把美好的瞬间真实地记录下来了。幡然醒悟,我立马添置了一套微单。虽然机身和镜头不轻,我外出也都尽量带着。通过取景器,而不是手机屏幕,让我又能够专注捕捉决定性瞬间了,也拍了不少自己喜欢的照片,太太也说我拍照水平比以前有进步了。
我想通过这个小的个人经历强调一下专注的重要性。现在大家paper越发越多,有点像用手机随便拍;但我觉得大家如果加强自己的“取景器”,多年专注的一个研究方向,就能进一步提升华人CV圈的品牌和口碑。我们的声音需要真正令人信服的实力来放大。
第二点是创新,这也是我加入创业公司的感受之一。做学术研究首先要讲创新,但做应用研究或产品可能有些人觉得做到能用就行了。我最近一年的深刻体验是一款产品或一种服务,必须要有某种创新型,才有可能在市场竞争中获得先发优势或竞争力。没有创新,没有差异化,简单copy别家idea的产品可能都走不出家门。举个例子,人脸识别技术是有很大的突破,但是只有结合新的场景才能在市场作出好的产品。Face++的“Paying with you face”在中国第一个把基于人脸识别的身份认证应用于金融行业,打造了一款成功的在线云服务,今年也被MIT TR评为2017年全球十大突破性技术。由创新带来的先发优势和更深入的产品迭代,并不是后来者可以轻易copy成功的。
所以说无论学术研究还是应用研究,创新总是第一位的。
聚会
他乡遇故知是人生四大喜事之一,当然结识新朋友亦是令人惊喜的。CVPR自然是充满这样的愉悦和惊喜。
银发哥俩:陈长汶(左,港中大深圳理工院院长)和陈熙霖(右,中科院计算所副所长)。
UIUC哥俩:周翔(左)和田奇(右)。
师徒仨:陈长汶(中)、罗杰波(左)和蔡剑飞(右)。
众学者:朱松纯、汤晓鸥、田奇、王井东、虞晶怡、杨杰、郑冶枫、陈梅(从左到右)。
与会的马里兰大学校友们。
花絮
# Coming for Vacation and Public Relations
本次CVPR在度假胜地夏威夷举行。由于ArXiv的兴起,大家对许多文章已经很熟悉,缺失了以前的那种对文章的新鲜感。所以,更多的是结识新朋,重逢老友;再加上,大小公司的各种Party不断。于是,大家戏称CVPR stands for Coming for Vacation and Public Relations。
# 飞飞的“学术榜样”
李飞飞(斯坦福大学副教授)在IJCV Asia Lobster Night的演讲中,公开说“朱松纯对计算机视觉的思考超越了像素,直达语义的层面,然后还和三维进行互动。”她还说松纯的研究给了她非常大的启发,让她备受激励。难道她的“学术榜样”之一是朱松纯?
# 视觉研究“驻颜有方”
沈向洋的十年沧桑。
罗杰波的十年沧桑。
“吴门视觉派”(袁浚菘、戴声扬、华刚、吴郢、喻頲、杨铭)的十年沧桑。
沈向洋(微软执行副总裁)在IJCV Asia Lobster Night的演讲中,提到了他离开视觉研究整10年。岁月催人老,不做视觉让他容颜发生了很大的变化。因而,他实在怀念做视觉的美好时光。后来,罗杰波和“吴门视觉派”(吴郢和他的学生们)在朋友圈纷纷晒出了不少“容颜vs时间”的变化图来作佐证。
# 与夏威夷小姐的“第一次亲密接触”
大会晚宴在Wakiki海滩边的公园举行。酒足饭饱之后,大会请来当地的夏威夷风情的歌舞表演团给大家助兴,演员中包括夏威夷小姐。于是,就有了王井东(微软Lead Researcher)与夏威夷小姐的“第一次亲密接触”。
# 黄“教主”现身
Nvidia CEO黄仁勋“教主”和中科院王亮合影。
Nvidia把CVPR作为了主会场,全公司派出了50多人的团队与会,CEO黄仁勋“教主”也亲自现身站台。不过,这次他没有一袭黑皮夹克,而是身着“Aloha”服装出席。
# 会场“遛狗”
来自俞天力(摩图创始人)的朋友圈:摩图的机器狗,今天拉出去在CVPR上遛了一圈。
# 双“键”合璧的代价
商汤科技号称拥有GPU卡近三千张,组成机群。只要递交一个比较复杂的训练任务,三千张卡同时运行,训练时间达好几天,据说所耗电能费用即可逾五十多万。真是“双‘键’一合璧,黄金百万两”。
# Person Re-ID
Person Re-Identification是指判断在不同照片中的人是不是同一人。孙剑在贴了如上两幅图。梅涛(微软Senior Researcher)仔细观察后,指出这个Person Re-ID的Challenge。看来还是“人工”智能最靠谱。
# MUKH & ALTUM
随着深度学习(Deep learning)在AI的不同应用中(如人脸Face等)取得成功,公司名字中有Deep, AI, Face这些词的很多,最著名当属DeepMind, Face++, Deeplearning.ai等。有两个Start-up别出新裁:MUKH和AltumView。Mukh是印度语Face,Altum则是拉丁文Deep。
# “虾蟹天敌”再现江湖
罗杰波(圈内人称L教授)是非著名的“虾蟹天敌”,经常在朋友圈晒他对虾蟹大块朵颐的镜头,这次当然也不例外,而且还把“容颜担当”梅涛拉下水。
# 一览众云低
夏威夷是度假胜地,爬Trail是受到大家欢迎的活动之一。爬Trail有点像做研究,只有付出很大的努力,才能抵达高峰,一览众云低,湖光山色尽收眼底。图片来源:(上)张正友(CVPR17 General Co-Chair)、(下)杨林(UFL佛罗里达大学副教授)。
# CVPR2021华人视觉学者再出手
据最新消息,CVPR2021主办权已揭晓。华人视觉学者再次挑大梁,谭铁牛院士担任General Co-Chair,虞晶怡担任Program Co-Chair。恭喜!
致谢
感谢赞助商:商汤科技、地平线、百度、文安智能、体素科技、平安科技、旷视、亮风台。感谢林哲(Adobe首席科学家)和他的不知名同事再次精心制作了精美的明信片。感谢孙剑的单反相机。感谢微信朋友圈。
版权声明:本原创文章版权属于《视觉求索》公众号。任何单位或个人未经本公众号的授权,不得擅自转载。联系授权转载请通过订阅公众号后发消息或电邮visionseekereditors@gmail.com。