没有任何黑暗能盖住这个民族的创新光芒。
2019年6月18日加州长滩,计算机视觉和模式识别大会 (CVPR) 的主议程如期展开。这项会议代表着全世界科技创新领域内的最重要方向之一:计算机视觉 (computer vision)。
自诞生以来,计算机技术已经获得了长足的进步,从最初的算数开始,不断进化出新的计算模式和形态,现已能够执行广泛的任务。但是万法归宗,计算机对这个世界的一切感知,仍然回到1 和 0 的输入,依赖预先设计好的逻辑序列。只要人不教给计算机,计算机就无法学会新的能力。
十多年前,一小撮科学家潜心研究一项名为深度学习的技术,模仿人脑神经元的连接结构,在计算机上创造“人工神经网络”,终于实现重大突破。通过深度学习,今天的计算机已经拥有许多新的能力,而其中一项就是基于深度神经网络的计算机视觉——“看到”,“看懂”真实世界,并以此为逻辑基础进一步完成复杂任务的能力。
尽管是一门极为尖端和复杂的技术,计算机视觉的进步可以被所有人所享受到。
在美国,计算机视觉驱动的自动驾驶汽车已经在部分地区上路,承担出租车的职能;在中国,广受用户喜爱的相机美颜滤镜 app,则是基于计算机视觉的人脸识别能力,对人脸上的特征进行学习和识别,自动修改脸型、放大眼睛、叠加妆容;计算机视觉还在欠发达地区成为了“医生”,诊断病症并建议治疗方案,极大改善人们的健康状况和生活质量。
计算机视觉技术仍在不断进化,CVPR 正是这些进化被发表、记录和被世界所了解的最佳舞台。
而在今年,华人成为了这届会议最闪亮的星。
大会主席团成员朱松纯教授在开幕演讲中透露,CVPR 2019 共收到超过1.4万名作者投稿的5,160篇论文。按照提交者国别统计,来自中国的论文占到了39%,超过美国(25%),在全部72个国家中也遥遥领先。
根据技术媒体机器之心的统计,中国已经连续两年成为 CVPR 第一大投稿论文来源国。
今年的参会者总人数也超过了9,200,突破了自从1985年首次举办以来的历届记录。来自中国的参会者更是达到1,044人,仅次于4,743人的美国。
硅星人在议程和展区内走访,发现黄皮肤、讲普通话者众多,比例远超其它人种和语言。中国参会者的热情,加上美国本土大批华人研究员的参与,让 CVPR 变成了亚洲面孔的海洋。
尽管官方并未提供参会者的族群细分情况(为促进多样化,保护参会者利益和隐私,过于具体的数据通常不会统计和公布,)几乎可以确定的是,华人构成了本届 CVPR 参会者的最主要部分。
一些网友在 Twitter 上表示,因为看到了来自中国投稿论文的惊人数量,对中国的科技和公司产生了更高的兴趣。
作为大会的重头戏,颁奖典礼也毫无意外地成为了优秀华人研究员的高光时刻。
CVPR 2019 的最佳论文奖颁给了联合研究的《非视距形状重建的费马路径理论》(A Theory of Fermat Paths for None-Line-of-Sight Shape Reconstruction) 一文。
该论文由美、英、加三国大学的研究者共同完成,第一作者为辛书冕,卡耐基梅隆大学 (CMU) 机器人学院博士生,西安交通大学电气工程学士、CMU 电气和计算机工程硕士。
这篇论文的标题听上去十分晦涩,但它实际上探讨了一个极为重要的问题:目前的计算机视觉能够清楚地看到在视野 (line of sight) 之内的物体;而对于人类来说,即便一个物体在拐角背后,无法看到完整面貌,也可以透过物体在其它表面上的反射、漫射投影,以及在直觉的帮助下,猜出物体是什么、长什么样。
在过去,机器无法像人一样做到这些事情。
而这篇论文的最重要的贡献,就是让机器获得类似人的“直觉”一样的能力,提取极其有限、零碎和非直接的光学信息,最终精确地重建出物体本来的模样。
比如在上图中,例子(a)显示相机和硬币之间被障碍物挡住,直接视角只能看到硬币侧面;例子(b)显示相机和硬币之间有一张不透明的纸。研究者设计的计算机视觉系统可以通过几何光学原理,结合硬币在可见表面上的投影,最终重建出一个相当准确的硬币表面浮雕。
(c) 显示,这个系统重建出的硬币表面浮雕,和视野内直接观测的结果特征基本吻合。
辛书冕等人的这篇论文有很大希望成为非视距重建领域的重要研究基础。在可见未来的日常应用场景里,这篇论文将能够帮助计算机视觉驱动的系统变得更加“智能”。比如,自动驾驶汽车将能够更准确地“看到”障碍物的背后,从而提高决策判断的能力,变得更安全。
CVPR 2019组委会给了该篇论文极高的评价:“该论文在非视距重建(也即看到拐角背后)上作出了杰出的贡献。这是一篇理论优美且具有启发价值的论文,扩展了计算机视觉可能性的边界。”
本届大会的最佳学生论文奖颁发给了《用于视觉语言导航的强化跨模态匹配和自我监督模拟学习》一文,第一作者为加州大学圣巴巴拉分校自然语言处理组的王鑫。他师从本校助理教授王威廉(在社交网络上活跃于人工智能话题讨论的@王威廉),本科毕业于浙江大学。
这项研究的主要内容是让机器人可以遵守自然语言指令(先右转,到厨房后左转,走过桌子进入走廊,进入走廊上右手没有门的入口,在厕所前面停下)进行视觉导航。
和上一篇论文类似,王鑫等人的这篇论文希望解决的也是一个人能够轻松理解,但机器尚无法驾驭的任务。机器人想要按照这段指令进行导航,前提是它拥有一个全局地图,从而提前设定好路点,就像在即时战略游戏里那样。但是在该论文的试验环境中,机器人并没有这样的地图。人类可以根据命令走一步看一步,但这样的能力在过去对于机器人来说太过于复杂、不现实。
王鑫等人提出了一套新的解决办法。简单来说,机器人可以识别当前所处的局部区域,从自然语言指令里关注到对应的部分,进行导航,再次识别新的局部环境,关注指令里对应的部分,再次导航,以此往复,达到最终的目的地。
这篇论文同样得到了组委会的高度评价。王威廉透露,本文是 CVPR 2019 满分文章,在全部5,160篇投稿文章中得分排名第一,并且被程序委员会和领域主席评审团确定为口头报告论文之一。
一篇论文在其领域的学术顶会上获得如此待遇,是对参与研究者极高的嘉奖。
计算机视觉领域的开创式论文 ImageNet,更是在本届大会上斩获最高荣誉“朗吉特·希金斯奖”。这篇论文由华人研究员邓嘉等人于十年前发表,斯坦福大学李飞飞教授指导。
ImageNet 项目的本质是一个大规模的标注图像数据库,每一张照片上的物体,甚至物体之间的互动,都用单词或短语进行了标注,使得神经网络训练成为可能。ImageNet 论文目前在学术数据库 Google Scholar 上的引用次数已经达到11,615次,在计算机视觉领域排名第一。
ImageNet 的存在使得更多研究者可以利用它来设计、训练和测试最新的计算机视觉技术。在李飞飞等人举办的 ImageNet 挑战赛上,许多高分神经网络模型崭露头角、引发轰动,推动了深度学习的进步。
有趣的是,当下的许多论文往往使用了高性能计算设备和崭新的算法,才能取得卓越成绩,而 ImageNet 其实很大程度上依赖“为人工智能打工的人”。为了构建这个数据集,研究团队密集使用了亚马逊的 Mechanical Turk 众包平台,用真人手动给图片进行标注。
邓嘉目前在普林斯顿大学计算机系担任助理教授,领导着该校的视觉和学习实验室,是领域内的知名学者之一。因为 ImageNet、推动计算机视觉技术发展以及诸多其它贡献,李飞飞也被视为当今人工智能方面的卓越人物。
回望当年的 CVPR 2009 上,刚发表的 ImageNet 并未进入主议程,只是一篇默默无闻的 poster 论文,在展区中间和其它论文一起,限定时间内张贴展示,到点就要撤下。
发表十周年之际,ImageNet 获颁 CVPR 朗吉特·希金斯奖,已经证明了其对于计算机视觉领域的重要价值。
三篇获奖论文,让奋斗在美国学术界一线的华人学者迎来了高光时刻。而在大会的另一个“舞台”,大洋彼岸的中国科技公司也正在扮演更重要的主角。
根据大会官方资料,共有22家注册于中国的科技公司参展 CVPR 2019,加上注册于美国具有中国团队和资本背景的科技公司,总数在30家左右。许多在计算机视觉学术研究以及工业应用方面世界领先的中国公司,出现在了 CVPR 2019 的展区内,吸引了大批参会者驻足交流。
因为要放下一辆卡车车头,图森未来占据了展区内较大的一块地方。这家公司美国总部位于加州圣迭戈,目前正在亚利桑那州的图桑市附近区域路测无人驾驶货运卡车,技术水平和路测经验在该领域方向内名列前茅。
据美国公共广播电台报道,图森未来在今年五月底和美国邮政署 (United States Postal Service) 签订协议,将在达拉斯和凤凰城之间超过一千英里的公开道路上测试无人驾驶卡车运输,为期两周。美国邮政署官方资料显示,该机构属于美国政府,拥有近60万名员工和22万辆汽车,是全美国乃至世界最大的民用车队,每年行驶里程超过12.5亿英里,约合20亿公里。
除了与美国邮政署合作,图森未来还和亚利桑那州当地的皮马社区大学共同创建了自动驾驶卡车司机课程和认证项目,以促进当地就业增长和升级。该公司曾于2017年公开自动驾驶数据集,以帮助全球学者改进计算机视觉算法在真实驾驶环境中的性能。
阿里巴巴、腾讯和百度也来到了 CVPR 2019 现场,给来自全球的参会者以机会一睹三家最具代表性的中国互联网科技巨头,在计算机视觉领域的研究和工业应用进展,如开源深度学习框架、人脸识别、自动驾驶和无人门店解决方案等。
三家公司分别有数十篇论文得到 CVPR 2019 收录,在职研究员也在大会的不同领域委员会担任主席。
参照美国知名科技公司 Google、微软产学研互补的方式,结合各自在中国互联网行业的技术需求,BAT 也在过去几年内分别组建了自己的前沿技术研究院:阿里的达摩院下设视觉实验室,腾讯则有专司计算机视觉的优图实验室,百度研究院在硅谷也一直有较强的科研存在。
被称为中国计算机视觉“四小龙”之一的旷视,带来了本届 CVPR 大会上最有趣的展示:没有手柄,两名玩家使用自己的身体作为“输入设备”,控制各自的角色在《街霸》游戏中对打。
这项技术可以同时锁定两名玩家的脸部,并追踪他们的肢体动作,而硬件仅需要一台笔记本电脑和一个现成的普通网络摄像头。
▲商汤科技的展示也颇具创意:摄像头捕捉体验者的面部,显示屏上的梵高自画像会跟着改变表情。
它的厉害之处在于不但能进行人脸识别和表情追踪,还加入了神经图像风格迁移,一项在计算机视觉领域较为热门的技术,在复制表情的同时,还能保留原版自画像特有的,梵高自成一派的风格。
在 CVPR 2019 上发表多篇论文并组织领域研讨的滴滴出行,也在这段时间备受学术和业界的关注。这是因为在 CVPR 2019 开幕的几天前,另一项机器学习顶级学术会议 ICML 2019 期间,滴滴宣布和今年图灵奖得主约书亚·本吉奥 (Yoshua Bengio) 领导的加拿大科研机构 Mila 达成了战略合作。
计算机视觉技术在近几年的飞速发展,皆是因为深度学习作为基础方法取得了重要突破,而本吉奥正是深度学习的“开山鼻祖”之一。因为上世纪90年代至今的不懈研究和贡献,本吉奥另外两位同时代的专家被合称为深度学习的三剑客,共同获颁被称为“计算机界诺贝尔奖”的2018年图灵奖。
根据公开资料,本吉奥创办的 Mila 是截至目前全世界最大规模的大学级别深度学习研究机构。而和这样的机构达成战略合作,不但意味着滴滴的学术贡献潜力得到世界级专家的认可,还标志着来自中国的科研创新力量踏上了全球舞台。
去年,滴滴成立了 AI for Social Good (AI赋能社会) 共创平台,与十多所高校、科研机构和社会组织展开合作,在安全、健康、环境、无障碍等几大核心方向进行项目研究,其中包括绘制高清空气质量地图帮助解决环保问题、推进新能源解决方案和智能交通技术的融合发展,以及推出司机 AI 关怀助手等。
在本届 CVPR 筹备期间,滴滴还放出了 D²-City,一个大规模行车视频的高清标注数据集,并在此基础上举办了自动驾驶算法挑战赛,两支分别来自瑞典和中国的团队摘得冠军。
本吉奥表示,滴滴在 AI 赋能社会方面的努力和 Mila 一致,“过去,Mila 曾经是一个专注基础科学研究的机构;转变思路之后,我们的主要任务之一就是产出能够对世界带来正面影响的研究。”
当前,中国科技公司正在面临全球技术禁运的逆风环境。美国商务部将多家中国公司加入美国公司技术出口对象限制名单当中;一些计划参加 CVPR 2019 大会的中国研究者,也因为美国移民局的签证审批而行程受阻。
而位于加拿大的 Mila,是近期首个公开站出来对中国科技公司和研究者张开怀抱的北美顶级学术机构。本吉奥对滴滴的青睐,显得尤为可贵。
在采访中,本吉奥告诉硅星人,“我们正处在一个关键时间点上,比历史上任何时候都更需要强有力国际协作。否则,我们将永远无法决定地球命运的重要问题上达成共识。”
他认为,不仅仅是学术界,各行各业都应该正视中国创新力量对于全球技术整体进步的贡献。“Mila 与滴滴的战略合作只是一小步,希望有更多的(北美)学术机构能够站出来。”
这次战略合作,以及华人和中国公司在全球学术峰会的优异表现,让黑夜显得不再暗淡无光。