计算机视觉:学术界与工业界GAP有多大?

2020 年 8 月 26 日 AI科技评论

文字整理 智源社区 贾伟

近年来,随着以深度学习为代表的机器学习方法在计算机视觉领域的广泛应用,以及计算机视觉在工业界场景中不断落地,CV领域的产、学两界之间的界限逐渐模糊,高校师生大规模加入工业界探索,而工业界也投入大量资本进行学术研究。这就导致一个“奇怪”的现象,在学术顶会中,常常会看到,一篇学术论文的研究者,既有高校师生,又有企业研发团队,似乎基础研究和商业已经实现了无缝衔接。

站在2020年下半年,在计算机视觉领域,学术界和工业界是否还存在 GAP 呢?CV领域研究生如何成功顺利跨入企业,成为优秀人才?企业的顶会参与越来越多,难道他们真的在乎研究?计算机视觉研究的未来趋势有哪些?

针对这些问题,在由中国图象图形学学会主办、视觉大数据专委会承办,北京智源人工智能研究院和美团协办的ECCV 2020中国预会议上,华刚(Wormpex AI Research 副总裁兼首席科学家)、田奇(华为诺亚方舟计算机视觉首席科学家)、王井东(微软亚洲研究院)、魏晓林(美团视觉智能中心负责人)、熊红凯(上海交通大学教授)等学术界和工业界CV学者进行了一次深入探讨,圆桌主席由董晶(中科院自动化所副研究员)担任。

左列由上至下为董晶、田奇、熊红凯

右列由上至下为华刚、魏晓林、王井东


1

当前CV领域的研究生(硕士、博士)应该具备的哪些能力?

熊红凯——CV,不仅是技术,更是对真理的探索

我几乎没离开过学校,关于学术界,下面谈谈自己的经验。 

小时候,家人告诉我,人类面对三个世界,第一个是意识世界,第二个是现实物理世界,第三个是真理的世界或者数学的世界。

按照这种观点,做学术更多的是面向第三个世界,即数学的世界。换句话说就是,做学术的目的是面向物理世界,去寻找它真正存在的规律。而意识世界,我们无法左右,只能通过梦境或其他方式呈现。

但后来接触到计算机视觉,它让计算机像人一样具有视觉的观感。这就意味着,计算机视觉给意识世界打开了一个窗口,它把意识世界和现实的物理世界进行了关联。

现在学术研究存在一个分歧,对心理世界和物理世界的关联研究(不是对真理或规律的研究)是不是学术研究?因为很多人认为计算机视觉的研究成果更多的是用来娱乐和消费,而非探索真理。但我认为,抛开市场的层面,计算机视觉本身是一种向人类自身意识的拓展,这才是计算机视觉作为一种学术研究的内核。

当然,这是我对计算机视觉的理解。

从事计算机视觉研究的学生们,既然选择这个领域,就要有哲学层面上对这个领域的思考,找到那种能打动自己的部分。核心层面要始终意识到,这并不仅仅是一种能带来经济效益的技术,更是一种真理的探索。

王井东——写作很重要!

我虽然是来自工业界,但实际上更多的还是偏学术界一点。刚才熊老师讲的高度非常高。我就讲一讲在这十几年中,我带实习生的一些感受或心得吧,当然讲的很多东西实际上是从别人那里学到的。

沈向洋曾经提过“三好学生”。哪“三好”呢?就是数学好、编程好、态度好。

  • 数学好:2012年以来,许多学生认为数学不再重要,只需要调参就行了。但其实这是误解。大家以后走向工作岗位,就会发现光会调参是不够的,你没有优势,因为每个人都会调参。只有数学技能充分,才能够具备优势。

  • 编程好:这个很自然,做计算机方向,编程当然重要。

  • 态度好:你想做学术研究,态度是第一。没有一个好的态度,光有良好的基础是不够的。

除了这三个以外,从我个人的许多经历中,我认为还有一点非常重要,就是交流。交流,并不是单指口头交流;对于做研究的人来讲,写作也是一种很重要的交流。

为什么会这么讲呢?做研究,并非是一个人,往往需要跟很多人去合作。在合作的过程中,比如我带一些学生,往往会出现这种情况,我跟学生去讨论一些问题,但不同学生所接受的东西是不一样的。那么,怎么才能保证,最后大家能够达成一个共识?

我的一个建议就是,把它写出来。

写作,并不仅仅是指写论文。其实平时的交流也需要写出来。把平时的交流写下来,一个好处就是,如果你写的好,别人可以非常清晰地看到你最近在想什么,而口头交流则会有许多意思不到位或理解不到位的情况。

除了对自己idea进行写作外,其实对自己其他方面(例如规划、报告等)的写作也非常重要。这个技能其实是非常重要的,它能够帮助你去规划过去和将来的几年应该怎么去做。可能有人会想,我不用写,因为头脑中每天都在想这个问题;但事实上是,只有当你真正把这个东西写出来后,才会发现你头脑中想的和实际中发生的到底有多大差距。因为你在头脑中构想时往往会遗漏许多细节,当你写下来时,才会注意到这些东西。

因此,我建议学生们,不管是在做学术研究,还是到公司工作,写作这个事情,应该做起来,这对你一生都会是非常有帮助的。

田奇——不管到哪儿,都要有崇高的精神

2017年以前,我在学校当老师;之后几年,我在公司从事研究。因此我从行业的角度来说一说,工业界需要什么样的人才。如果你具备这样一些素质的话,可能就会有一些优势;如果不足,可能要弥补一下。

我总结了几点:

第一点,在工业界来,首先需要专精一个领域,在这个领域中要有一定深度的专业技能和创造力。

第二点,其实井东也提到了,就是沟通合作的能力。同时,我们也要有多领域理解能力,就是能够理解别人的工作。这就要求具备“T型“的知识架构,不仅要有知识的深度,还要有知识的广度。

第三点,从行业应用的角度来说,要有一些真正懂得人工智能产品的人才。这就要求能够从客户的角度,去发现他们真正需要什么;或者,从应用的场景去思考计算机视觉能够做什么,从而来激发一些更新的研究。

第四点,就是能够对新的业务方向具备很好的敏感性,对它的发展有快速、准确把握的能力。

最后,我之前在其他场合也谈过,就是需要有崇高的理想境界,能够以人为本,去思考如何利用自己的能力,去为人们的精神文化需求服务。


2

请问大家是怎么看待产业界和学术界参与国际顶级会议发表科研成果的热度的

华刚——Win-Win:学术界与产业界的融合

它的存在是一个客观现象。从我们的角度来说,也非常希望这个趋势能够一直这样紧密的保持下去的。

现在的热度主要来自于两个方面。

第一,现在CV的研究,从方法论上来说,是被深度学习主导的,而深度学习需要大量的数据,这种数据,学术界没有,而产业界却很丰富。这时候产业界与学术界结合,教授们会把他们的学生送到企业去做实习,从而能够访问这些数据;而企业也得到了优秀人才。这本身是一个平衡。

第二,PHD本身是为学术界培养的,大部分博士毕业之后应该是去做教授的,但现在博士生太多了,有点“通货膨胀”,而高校位置就那么多,于是就产生了一个职业,就是工业界中有一群做研究的博士。这群人本身有两个身份,一方面要为企业的商业利益服务,另一方面他也能给自己分配一些精力做研究。他能够通过与高校合作的方式来带学生,通过这种方式,他能够去做一些更难、更长期、更加具有探索性的项目。

从这两个方面来看,其实学术界与产业界之间的深度合作,是一种双赢的局面。所以我并不觉得产业界和学术界存在多大的鸿沟,从有用的技术、有趣的研究这方面考虑,特别是CV发展到今天这种程度,已经很难去区分是不是学术界的问题了。高校的老师和学生在做有趣的研究,而工业界的研究员在做有用的技术,两者结合,Win-Win。

所以,我希望这种热度能够一直保持下去。

魏晓林——实习生,学术界和工业界融合的桥梁

视觉这个方向,工业界和学术界总体的 GAP 越来越小,这个大家有目共睹。对工业界来讲,GAP小是非常有利的,企业方便招到优秀的人才,另外也能很快将最前沿的算法应用到实际产品中,不断迭代和创新。

为什么 GAP 越来越小呢?刚才华刚老师也提到,深度学习这种新的范式,使得企业具备了学术界所不具备的优势,比如大规模标注数据、算力以及问题的实际应用场景。学术界很难拿到这种资源,这也导致很多非常高层次的学者加入到了工业界。

其实还有一个现象,就是有大量的 CV 领域的学生加入到企业进行实习,并在企业里做研究,发paper。他们,事实上,起到了工业界和学术界融合的桥梁角色。

从现在来看,我觉得两个领域的GAP小一些比较好,这样研究和应用不至于脱节。但是从长远来看,我觉得可能 GAP 大一点会好,因为我觉得还是要回到事情的本质。驱动学术界前进的是基础研究,这是需要花费更多精力,做一些长远探索的事情,往往需要五年、十年之后才能见到效果;而驱动企业去做研究的动力,本质上是商业,它更关注是否能给企业带来经济效益,是短期的。所以两者之间尽管可以密切合作,但也应当保持一点距离。


3

工业界和学术界对顶会顶刊的重视程度/人才吸纳/技术成熟度的判断标准是否有差别?

华刚——进入企业,论文只是一个敲门砖

学术界和工业界在论文发表上的区别,其实蛮大的。在学术界,论文发表即意味着结束;而在工业界,论文发表只是工作的开始,因为你的研究只是一个概念论证,后面如何进一步提升性能如何找到落地场景等,还有很长的路要走。

至于说工业界对学术顶会期刊的重视程度,其实你之前发表的论文具体做了什么,在找工作的阶段并不重要,它更多的只是一个记录,说明你具备逻辑性思维,在评选候选人的时候,论文是一个加分项,更容易吸引眼球,但也仅限于此,只是初始时的一个敲门砖。实际上,每个候选人,我都会去聊一下他的论文,看看究竟这里头有多少思想是他自己的。更重要的是,他到底有没有形成一个成熟的逻辑体系,我觉得这才是一个人才是否优秀的重要标准之一。其实工业界,更重要的是去看你真实的技能,就是能否去解决问题,因为在工业界很多时候,都是你追着问题,去解决问题,在这个过程中来建立你的技术。所以解决问题的能力,才是工业界衡量人才的标准。

田奇——解决问题的能力,才是核心竞争力

工业界和学术界,其实它的核心都是人才,都需要非常优秀的AI人才。我们都希望这些人才理论扎实,工作能力强,善于合作,善于创新。但两个领域也有一些差别,学术界更需要的是能够将实践升华为理论的能力;而工业界,其实秉着“不管黑猫白猫,抓到老鼠就是好猫”的态度,更看重解决问题的能力。

关于顶会、顶刊,应该把两者分开来看。工业界会更重视顶会一些,因为能够快速地把工作发表出来。在顶会方面,工业界和学术界的重视程度差不多。

关于人才吸纳,工业界可能更关注以下几点:作者是不是第一作者;有没有对一些开源项目做出一些贡献;或者在一些AI比赛中有很强的表现;是否有参加项目的实习经历;是否有丰富多彩的课外活动等。这里面看的不仅是研究能力,还有工程开发能力。

魏晓林——企业的论文,只是技术的副产品

关于顶会顶刊论文,从工业界,我觉得可以从两个方面来说。

首先,入门工业界,也即进入企业,大家还是要看论文情况的。尽管这么多年来,我们都在强调不要过于重视论文的数量,应该追求事情的本质。但这就像高考一样,尽管它并不能完全反应出一个人真正的实力,但仍然是一个重要的衡量标准。

第二个方面,在公司内部我们是否重视顶会?这个问题需要去反推。在公司,我们会从市场的需求来反推需要什么技术,这些技术在落地的过程中会产生一些副产品,于是我们就顺便发了个顶会文章。其他公司我不太清楚,至少在美团,我们的KPI里没有必须要发表多少论文。

熊红凯——传统的学术界,论文不是衡量一切的标准

我说一下学术界。我自己以及家里人都是学术界的人,我也认识一些传统的学术界的前辈。我觉得传统的学术界,其实并不注重顶会顶刊。其中有个前辈说他当时哈佛大学毕业,没有发表任何论文,但最后还是被留为助理教授了。我记得,卡尔曼博士毕业也是没有论文的,当时也没有很大的影响力,但后来却做出了控制论。

今天我们总喜欢讲顶会、顶刊,这实际上是一个偷懒的想法,因为我们不愿意从一个人真正的思想和能力上去认真评判一个人的学术能力,只好用论文的数量或其他一些证书来作为衡量标准。我觉得这其实,不管是工业界还是学术界,都面临的一个问题,就是快餐文化,希望能够用更多证书,短平快地处理一些事情。

针对顶会顶刊,大家会用它的接收率来判断这个顶会、顶刊的质量。但大家都知道,即使评价特别高的顶会顶刊,其发表的论文也是良莠不齐的,因为研究成果的重要性,很难用这些数据评价出来的。

在学术界,其实很多学者可能更希望能用传统的方式,从这个人的思想来做判断,决定是否聘用他,或给他一个发展的周期。


4

请您谈谈本领域工业界和学术界对科研人员的吸引力法则?您如何看待和定义这两者的界别和角色转换的关系?

华刚——横亘在学术界、工业界之间的不是GAP

我其实不愿意把学术界和工业界之间的不同称为「GAP」。因为研究、开发以及将技术应用到实际场景,这是一个大循环,是相互衔接的。另一方面,我们把学术界限定为高校,事实上,学术共同体是一个很大的范畴,并不只是包含高校的老师和学生。魏老师提到希望学术界和工业界保持一点距离,这其实是希望能够把做基础研究的人保护起来,给他一个干净的环境去做事情。

我们来说,人才在高校和企业之间的流动,我觉得只是每个人自己职业上的选择,其实没有必要拿来评论。其中当然很多人会有“水土不服”的现象,这个只能说,在哪个行当就要做哪个行当的事情,高校进企业的教授,或企业进高校的研究员都要有这样的心态。

田奇——学术界和工业界互补互益、齐头并进

关于学术界和工业界的关系,我认为是互补的。在华为,我们经常说一句话就是,向上突破天,向下扎到根。前一句就是谈你的创新能力要强,后一句就是说我们要贴近行业。所以我们提出要全栈全场景,这就要求从基础研究到产业落地全部覆盖。如果我们把学术界的研究看做从 0 到 1,那么工业界的工作就是从 1 到 N。怎么把 0~1 和 1~N之间的缩小呢?这就需要有一个从研究到落地的沉淀过程。这个沉淀过程需要那些具备很强的build能力的人才。就像刚才华刚说的,学术界和工业界其实是一个循环,学术界给工业界输送了不少人才,我们也看到很多工业界的人才慢慢回流到学术界,这带来的一个结果就是,他们是带着新问题而来的,因此可以给学术界注入新鲜的内容。因此,我认为它们是互补互益、齐头并进的。

魏晓林——学术界只有几个学术界,工业界却有N个工业界

在计算机机视觉领域,一个很有意思的现象是,学术界可能只有几个学术界,例如国内的学术界和国外的学术界;而工业界却有 N 个工业界,每一个公司都是一个工业界,因为每一个公司,它的市场所面对的用户历史都是不一样的,它背后所代表的含义也是不一样的。

王井东——两界不分,这是好事情

刚才王亮老师说我是学术界,而华刚老师不完全同意,认为我是工业界,这意味着大家今天对学术界和工业界之间的区分没有那么清楚了。田奇老师是从学校去的公司,华刚老师也是,大家在这两种身份中切换,都是游刃有余。这是一件好事情。

10年前咱们做视觉研究的人,很多研究生博士毕业后,发现很难找到理想的职业,今天来看这个事情就不存在了。因为现在在工业界,其实有很多需要研究的地方,不像以前一样,毕业即转行。这是很好的一件事情。


5

请您谈谈您对未来 3-5年中计算机视觉行业的发展趋势,对可期的Top 1-2-3行业或某行业的前景预期?下一个阶段计算机视觉的研究热点在哪里?

王井东——与推理结合

视觉发展到今天,尽管许多研究人员不承认,但Deep Learning事实上就是计算机视觉领域的主流方法。但大家发现Deep Learning存在很多缺点,例如不可解释性、安全性等问题。我认为计算机视觉接下来一个重点就是,要考虑怎么和推理结合起来;具体到方法上,就是怎么和神经符号这些方法进行结合。这也是解决可解释性、安全性和透明性等问题的途径。

华刚——三个繁荣产业,两个研究趋势

首先,我觉得视觉最有可能三个产业领域上繁荣:第一是安防,大家已经看到了,包括城市大脑这些,我把都归于安防的范畴;第二是无人驾驶,这个行当是相当看好的;第三是零售,很多人还没有注意到,但我觉得视觉会对这个行业产生一个大的颠覆。

下一个阶段计算机视觉的研究热点,我觉得有两个重要趋势。一个是,深度学习与计算机视觉的一些领域知识结合越来越多,结合之后才能产生更好的可解释、鲁棒的模型;另一个是,用小数据去训练模型。

田奇——数据利用好,至关重要

关于AI的趋势已经聊了很多,就是一些自主自治、资源高效、安全可信等。在计算机视觉领域,其实所有的问题总结来说就是数据、模型和知识的提取。最主要的还是聚焦在数据高效上。因为深度学习需要大量标注数据,如何把数据利用好至关重要。从数据层面,就是把数据的质量做好。另外,一个发展趋势是怎么把软硬件结合起来。从单点的技术来讲,如何进行无监督学习、AutoML、边缘计算、知识蒸馏、模型迁移等都是比较好的研究方向。

魏晓林——大范式下的小范式

前几位老师都讲了很多,其背后的大逻辑其实就是,我么应该更加关注新的技术范式,像深度学习一样能够完全颠覆原来的范式。

当然,在大的范式下面,有一些小的范式。例如,小样本学习,虽然还没有应用非常广,但它能够加快迭代速度、降低计算成本;自监督学习,能够减少标注成本;AutoML,可以减少人工研发的人工成本;多模态学习与知识图谱的集合、CV与知识图谱的结合,可以对组织上产生一些影响;此外,还有模型压缩,从而找到更加便宜的算法。

熊红凯——回到哲学层面,重新思考视觉

刚才几位老师提到的,我就不再赘述了。

我这里强调一下新范式的问题。人工智能在最初是基于符号、基于专家系统、基于统计的,最近深度学习火起来之后,我们主要是基于数据。那么接来下大的范式会是什么呢?一个可能的方向便是类脑,即看人是怎么产生思想的,通过模仿人的思考过程来进行研究。

从应用来讲,刚才华刚老师提了几个方向,但这都是可预见的。我觉得,思考这个问题,还得回到哲学层面上,计算机视觉本身更多的是把人的意识世界和现实物理世界进行融合,最终达到我们无法区分到底什么是虚拟、什么是真实的地步。这是我们发展的终极状态,我认为商业落地可以尝试从这个角度来往回推演,从而得出什么才是值得做的应用场景。



[ 博文视点赠书福利]

AI科技评论联合博文视点赠送周志华教授“森林树”十五本,在“周志华教授与他的森林书”一文留言区留言,谈一谈你和集成学习有关的学习、竞赛等经历。

AI 科技评论将会在留言区选出15名读者,每人送出《集成学习:基础与算法》一本。

活动规则:

1. 在“周志华教授与他的森林书”留言区留言,留言点赞最高的前 15 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服(aitechreview)。

2. 留言内容会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。

3. 本活动时间为2020年8月23日 - 2020年8月30日(23:00),活动推送内仅允许中奖一次


 


阅读原文,直达“ KDD”小组,了解更多会议信息!

登录查看更多
0

相关内容

国家“万人计划”领军人才,科技部创新人才推进计划“中青年科技创新领军人才”,教育部新世纪优秀人才,上海市优秀学术带头人,上海市曙光学者,上海市青年科技英才,国家宝钢优秀教师奖。中国图像与图形学学会理事,IEEE Transactions on Circuits and Systems for Video Technology编委、高级会员。主持国家自然科学基金重点项目和重点国际合作项目3项,发表SCI、EI收录论文200余篇。2次获上海市技术发明奖一等奖(均排名第1),多次获国际学术会议最佳论文奖。个人主页:http://min.sjtu.edu.cn/xhk.htm
剑桥大学2020《AI全景报告》出炉,177页ppt
专知会员服务
120+阅读 · 2020年10月4日
清华大学《人工智能》书籍教学课件开放下载
专知会员服务
138+阅读 · 2020年7月27日
专知会员服务
43+阅读 · 2020年7月15日
Yoshua Bengio最新《深度学习》MLSS2020教程,附104页PPT及视频
专知会员服务
128+阅读 · 2020年7月10日
2019中国硬科技发展白皮书 193页
专知会员服务
81+阅读 · 2019年12月13日
2019 IROS—终生机器视觉数据集全球挑战赛
PaperWeekly
7+阅读 · 2019年9月6日
成为大厂AI算法工程师,“NLP/CV”都是你必须过的坎!
计算机视觉战队
3+阅读 · 2019年6月25日
阿里技术专家:优秀工程师是怎样炼成的?
51CTO博客
8+阅读 · 2019年6月15日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
计算机视觉:进最快的赛道,挣最多的钱
计算机视觉战队
6+阅读 · 2018年9月27日
“看脸”的时代,AI到底有多智能?
微软丹棱街5号
3+阅读 · 2017年11月9日
Arxiv
7+阅读 · 2020年3月1日
Arxiv
6+阅读 · 2017年12月2日
Arxiv
5+阅读 · 2017年10月27日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关资讯
2019 IROS—终生机器视觉数据集全球挑战赛
PaperWeekly
7+阅读 · 2019年9月6日
成为大厂AI算法工程师,“NLP/CV”都是你必须过的坎!
计算机视觉战队
3+阅读 · 2019年6月25日
阿里技术专家:优秀工程师是怎样炼成的?
51CTO博客
8+阅读 · 2019年6月15日
【学科发展报告】计算机视觉
中国自动化学会
42+阅读 · 2018年10月12日
计算机视觉:进最快的赛道,挣最多的钱
计算机视觉战队
6+阅读 · 2018年9月27日
“看脸”的时代,AI到底有多智能?
微软丹棱街5号
3+阅读 · 2017年11月9日
Top
微信扫码咨询专知VIP会员