微软亚洲研究院资深研究员王井东博士采访了他的博士生导师——香港科技大学权龙教授,他是三维视觉领域的旗手之一,他为我们介绍了三维重建的历史发展与应用前景,也为大家在研究学习、职业选择等方面给出了一些实用建议。
关键词:计算机视觉 三维重建
权龙,香港科技大学计算机科学与工程系教授,IEEE-CS Fellow,主要研究方向包括计算机视觉、图形学、人机交互、统计学习、模式识别和机器人等,担任国际计算机视觉大会(ICCV 2011)和国际计算机视觉与模式识别会议(CVPR 2022)大会主席。
权龙于1984年毕业于北方交通大学(现北京交通大学),同年考取教育部派遣的留学生赴法留学。在法国国家信息与自动化研究院(INRIA)获得博士学位后,加入法国国家研究中心(CNRS),他是1990年建立的INRIA Grenoble 计算机视觉组最早的成员之一。
权龙的代表作是他1995年发表的六点算法(Invariants of six points and projective reconstruction from three uncalibrated images)。六点算法解决了非标定相机三张图像下的三维重建,进而在理论上彻底解决了多视重建的几何问题(multi-view geometry)。
这篇论文从几何不变量的角度研究三维重建,首次建立了六个三维点的不变量和它们在图像中的投影点的不变量之间的双线性方程,并构造性地给出了在三张输入图像下三维点的不变量的代数闭式解(closed-form solution),最终从这些不变量推导出相机的三维姿态和重建的三维点的坐标。
这篇论文奠定了非标定相机三维重建的最小数据与重建的唯一性,即六个点和三幅图像。几乎所有的基于非标定相机的三维重建都是基于这个算法。在很长一段时间,权龙实验室的三维重建算法在性能上处于遥遥领先的地位。
权龙在CNRS 任职多年后,于2001年回国加入香港科技大学,建立计算机视觉研究组。权龙所在实验室利用领先和强大的三维重建算法与技术,将基于图像的建模推到了一个新的高度。2005年,他们发表了第一篇基于图像的对细小物体头发的建模。2006、2007年分别发表了基于图像的植物、树木建模。到2008、2009年,更是把基于图像的建模拓展到了街道、城市规模。这一系列论文都发表在图形学界的顶级会议SIGGRAPH上,标题整齐划一,都是统一的“Image-based X modeling”。“X”从2004年的“hair”一直变换到2009年的“city”。这些工作引起了图形学界的惊叹。
最近,为了把计算机视觉重建科研成果转化成产品,他和学生创建了Altizure公司,打造了世界上最好的三维重建平台。
权龙教授(左)和作者王井东(右)合影
问:您是如何走上计算机视觉研究的道路的?
权龙:我是1980年上的北方交通大学,1984年毕业考取教育部赴法留学生。80年代,人工智能是研究热点,和现在有点像,我当时去法国的第一志愿就是“人工智能”。当年法国的PROLOG作为人工智能语言引领了人工智能以及第五代计算机的发展。
我本来是想以后做人工智能研究的,但在修“人工智能”这门课时,却发现这门课实质上就是讲一些搜索算法,并不是我所期待的“智能”。我对当时这样定义的人工智能是比较失望的。
法国国家研究中心有做语音的、图像的、逻辑的、专家系统的,也有做神经网络的,也叫连接性或连接主义(connectionism)。因为我从小对图像和空间有着浓厚的兴趣,所以我在选择研究方向时,就决定做图像理解,也就是计算机视觉了。
1987年,我的博士生导师罗杰·莫尔(Roger Mohr)教授参加了在伦敦举办的第一届国际计算机视觉大会。第二届是在美国佛罗里达的坦帕(Tampa)举办,我发表了一篇论文。当时视觉小组在我导师的带领下一行四人,先乘火车到卢森堡,再飞到佛罗里达。那是我第一次从法国到美国,也从此开启了我的计算机视觉研究之路。
问:您现在主要研究三维重建,它的发展现状和应用前景如何,您为什么看好它?
权龙:说三维重建也要从计算机视觉讲起。计算机视觉包含两个基本方向,物体识别和三维重建。图像识别的突破性进展源自2012年卷积神经网络(CNN)的兴起。在此之前,计算机视觉的核心研究方向是三维重建。因为在当时,对于图像的特征提取主要是通过三维重建的方法来定义和实现的。自2012年以来,图像的特征便逐渐由神经网络来自动学习。
三维重建的应用很广泛,对于自动驾驶、虚拟现实(VR)、增强现实(AR)等应用领域来说,三维重建是核心技术,并且实时三维重建是必然趋势,因为我们生活在三维空间里,必须将虚拟世界恢复到三维,我们才可以和环境进行交互。所以仅仅研究识别肯定是不够的,计算机视觉下一步必须走向三维重建,并且把三维重建和识别融为一体。
古建筑修复与重建是三维重建的一个具有代表性的应用,比如近期被烧毁的巴黎圣母院,如果通过三维模型进行数字重建,应该能够达到原汁原味还原其真实面貌的目的1。目前在我们的三维重建项目中,名胜古迹的三维电子存档是很重要的一部分。从表面上看,三维重建似乎没有自动驾驶那么复杂,其实它比自动驾驶更难,因为自动驾驶的三维感知是给车识别,而VR、AR中的三维重建场景是提供给人类感知的,所以对三维重建的结果要求非常高。总体来说,三维重建是计算机视觉的灵魂。
问:三维重建在计算机视觉中确实非常重要,您可以带大家回顾一下计算机视觉和三维重建的发展历程吗?
权龙:1987年在伦敦举办的第一届国际计算机视觉大会(ICCV)可以作为现代计算机视觉研究的一个开端。之前很多人认为做图像处理就是计算机视觉,其实二者是有区别的。
计算机视觉的目标是对图像进行理解。准确来讲,计算机无法做到“理解”,只能做到“认知”。我们的研究目的是从图像中获取视觉特征,有了视觉特征才能开展一系列的工作。因此回顾计算机视觉的发展历程,根据算力条件的不同,我们可以看到一个特征提取的演化过程。
80年代,人人都在做以Edge为主的边缘提取,再把它高层化后的线段元做简单的统计分类或者三维重建。Edge在数学上很容易定义,在定义了很多优化准则后,1986年约翰·坎尼(John Canny)提出了Canny边缘检测算法(Canny edge detection)之后,这个研究方向就到头了。
90年代,人们对三维重建愈加重视,当时欧洲比美国要领先。几何也追求特征提取,但一维的Edge不适合几何计算,几何最本质的元素是点,所以很多工作开始围绕点的特征去展开,对点的特征进行描述,就可以把很多东西变成矢量的无序集合,再做统计。三维重建的终极目标是用非标定相机(uncalibrated camera)进行重建。
1992年,奥利弗·法格拉斯(Oliver Faugeras)和里卡德·哈特利(Richard Hartley)各自独立地解决了非标定相机两张图像下的三维重建问题,引入了基于七点算法的基础矩阵(fundamental matrix)概念,这标志着三维视觉的崛起。
1994年,我提出了六点算法,解决了非标定相机三张图像下的三维重建,进而在理论上彻底解决了多视重建的几何问题。奥利弗、里卡德和我的这几项工作共同奠定了三维重建的理论基础,对计算机视觉的发展起到了决定性的作用。
到了2012年,卷积神经网络的出现对于特征提取和图像识别都是一个颠覆性的飞跃,从而触发了新一波人工智能高速发展的浪潮。事实上,卷积神经网络在1989年就应用于图像识别问题,它是今天所有卷积神经网络的鼻祖模型。
从诞生到2012年的十几年间,发生变化的并非卷积神经网络的架构,而是:(1)GPU的出现提升了计算力;(2)斯坦福大学教授李飞飞创建的ImageNet,她把上百万张照片发到网络上进行标注。这两件事促成了卷积神经网络在2012年的复活。卷积神经网络的本质其实是两点,第一点是提取特征,第二点是标准分类器。所以本质上还是提取特征,只不过特征的表达能力比之前的手工定义要高得多。
所以从特征提取这条线索上看,虽然目前计算机视觉看似处于一轮新的热潮,但事实上一直以来大家都在做同样的事情,只不过在不同的阶段,提取的特征和采用的方式有所不同。
问:现在主流的计算机视觉研究主要集中在欧洲、美国和中国。您认为这三者的发展现状和未来将如何?
权龙:确实是三足鼎立。上世纪八九十年代,欧洲的计算机视觉发展迅速,研究人员在一定意义上把计算机视觉当作一个应用数学的问题,所以就用数学工具去解决这些视觉问题。同期,美国计算机视觉的研究人员也非常活跃,但主要集中在应用领域,研究方向并不是非常清晰。随着2012年由卷积神经网络引发的人工智能再次崛起,美国在应用方面突飞猛进,欧洲依然保持扎实的基础研究的风格。中国是后起之秀,飞速发展的经济和创新的氛围使得计算机视觉的研究和商业应用在极短的时间内快速发展起来。
问:您不仅在计算机视觉的研究上一如既往,也创立了专注三维重建的公司Altizure,那么关于学术和产业的选择,您能为我们分享一些经验和建议吗?
权龙:每个人都有不同的理想和发展方向,有的人可能更适合做应用,有的人更适合做学术研究,这是因人而异的。没必要每个人都要去做科研当教授,也没必要每个人都去创业,只要能发挥自己的特长,选择哪一条路都是非常好的。社会其实很丰富,大家都在从不同的角度推进科技的进步。
问:当时是什么促使您从学术界“跨界”进入产业界?
权龙:很简单,我一直在研究计算机视觉三维重建,以前的结果还不成熟,而到了某一个时机它终于能投入应用了,那我们当然要做应用,这是研究的最高境界。研究就是这样,可能在很长时间内效果都不够理想,那我们就要继续研究,但当它有了用武之地时,我觉得投入实践是顺理成章的。
问:您认为一个计算机视觉方向的学生,应该学好哪些知识,才能做更好的研究?
权龙:我对所有人的建议是,打好应用数学和计算机的功底。应用数学是理论基础,计算机是实现手段,两方面的能力缺一不可。我不太赞同大学开设人工智能专业的做法,其实人工智能在一定意义上就是应用数学,尤其是卷积神经网络,本质上数学优化和统计要有很好的应用数学功底。
问:很多人说深度学习和计算机视觉到了瓶颈期,您认为目前最大的问题是什么?您最期待的突破又在哪里?
权龙:“瓶颈期”不是一个合适的词汇。因为它本质上是一个应用科学,现在有了卷积神经网络这样强大的工具,所有的应用方向都可以重新去摸索。刚才讲到特征提取,提取完特征后去做具体的应用,很多东西是可以继续改进的,差别在于进步有多大。
卷积神经网络的特征提取已经是一个很大的突破了,在这个基础之上,我想会有一系列新的应用出现。如果实在要说突破,那就是硬件和算力的突破。目前大热的自动驾驶领域将很大力度地推进算力的发展,VR、AR也是同样。有朝一日如果算力能够有一个显著的突破性进展,很多无法想象的事情将会发生。
问:您作为CVPR2022大会主席,能否谈一下对CVPR会议发展的看法,对中国学者的论文投稿有哪些建议?
权龙:非常高兴看到CVPR的飞速发展,现在的会议规模差不多是10年前的10倍。计算机视觉包含许多基础性的研究问题,同时在工业界有着大量的应用。我相信计算机视觉将会持续增长。计算机视觉研究的圈子是动态的,健康的,同时也是公平的。近几年文章发表的方式有些改变,这没有对错,是时代的选择。
计算机视觉里的绝大多数问题都值得研究,包括那些已经在实际工业场景有所应用的问题,仍然面临非常大的挑战,需要投入大量的研究。视觉问题的任何进步都会在CVPR会议上得到关注。对CVPR会议来讲,本质的目的是培养年轻学者永远不要期待突发性的突破。与其他领域一样,计算机视觉的发展也是瓜熟蒂落,水到渠成。
作者介绍:
王井东
CCF专业会员、CCCF动态栏目编委。微软亚洲研究院视觉计算组资深研究员。主要研究方向包括计算机视觉、多媒体以及机器学习。
welleast@outlook.com
脚注:
1https://www.altizure.cn/project-model?pid=57f8d9bbe73f6760f10e916a
CCF推荐
【精品文章】
点击“阅读原文”,前往CCF数图相关栏目。