观点 | 计算机视觉，路在何方

2017 年 6 月 21 日 微软研究院AI头条 CVPR

上周，“微软亚洲研究院创研论坛——CVPR 2017论文分享会”在微软大厦举行。来自国内外计算机视觉领域学术界、工业界的优秀代表们携各自在CVPR 2017发表的最新研究和技术观点进行了分享，交流。而在此次活动上由微软亚洲研究院主管研究员罗翀主持的圆桌讨论环节中，五位计算机视觉领域的资深专家就目前计算机视觉领域研究中的热门问题给出了各自的见解。他们分别是：

● 陈熙霖，中国科学院计算技术研究所研究员

● 王蕴红，北京航空航天大学计算机学院副院长

● 曾文军，微软亚洲研究院首席研究员

● 林宙辰，北京大学信息科学技术学院教授

● 齐国君，美国中佛罗里达大学计算机系助理教授

下面我们就来与大家分享一下！（内容略有精简）

从左至右：陈熙霖、王蕴红、曾文军、林宙辰、齐国君

问题一：近两年深度学习十分火热，对于计算机视觉领域的冲击也很大，很多经典问题借助深度学习的方法都有了很大的提升。大家觉得深度学习的出现是否会对学生掌握计算机视觉的经典知识带来影响？

陈熙霖：如果用深度学习简单地应对当前问题，或者是数据，也许是一个办法。但计算机视觉其实是一个很宽泛的领域，很多问题是风马牛不相及的，有些问题可能用深度学习确实很有效，但有些问题却不一定会得到结论。比如，按现在经常用的识别率来度量，可能效果不错，但事实上，运用深度学习时如果不能很好的考虑问题的背景的话，那么很可能永远都达不到最终的目的。

陈熙霖，中国科学院计算技术研究所研究员

另外从教育来讲，我们要让学生掌握更多的知识，不能单纯的用一个工具来代替一个领域。比如计算机视觉里面，现在可能很多人都不太关注几何、光学等知识，但其实很多重要的论文，仍然在做这方面的工作。因此，教育不可以偏废。在过去这么多年当中，我们看到一波又一波的浪潮，一个又一个的新工具，如果作为练习这没有错，但作为一个长期的研究者来讲，我觉得还需要思考。

王蕴红：作为研究者，我们应该具备很多素质。首先就是，研究问题的本质是什么。比如计算机视觉到现在依然有很多问题还没有克服。我们不能否认深度学习是一个好工具，在以识别率为度量标准的前提下，它取得了一些成功，但有很多问题依然没有得到解决。

还有一点，用简单工具来解决问题时，我们可能需要可以熟练使用软件的技术人员。而研究人员在解决问题时，不应该把自己当成一个调参的工具，整个博士生涯中我们学到的是发现问题和解决问题的能力。在这个时候我们依然要关注到问题的本身是什么，怎么样才能够解决问题。所以任何一个工具都不是经久不衰的，但解决问题是经久不衰的，所以我们应该更多关注的是能力的培养。

王蕴红，北京航空航天大学计算机学院副院长

林宙辰：前几年大家都非常关注深度学习，但近两年我又看到了一个趋势，那就是深度学习和传统方法的结合。这个结合有两个方面，一个是在小数据方面，深度学习并不具有非常强的优势，但由于不是所有场合都有大量的数据，所以在很多问题上，我们还是要掌握传统方法。

其次作为研究者来说，如果大家都会深度学习，那么你要怎么超过别人？当大家都处在一个起跑线的时候，你的专业知识（Domain Knowledge）就会起作用。所以我不太担心深度学习会完全替代掉传统方法，而将会以另外一种方式，比如，做更大的系统可以集成更多的东西。因为计算能力的增强，问题复杂性的增高，简单的模型可能就做得不够好，所以系统越来越复杂是未来必然的趋势。

总结：虽然现在深度学习非常好用，但我们也不能为结果论，不能丢弃传统的知识，最终可能还是需要领域内的知识和深度学习一起去发挥最大的作用。

问题二：关于arXiv各位有什么样的观点，它到底对于领域的发展是好事还是坏事？

曾文军：arXiv开始变得流行是因为它有一个平台，可以让大家更快、更好地去交流一些想法，所以从推进学术界发展的角度来说，它的确起到了相应的作用。最近的一些争议主要是围绕着它没有正规的流程导致论文质量可会受到影响这方面在讨论。但其实arXiv更像是一个公众发起的平台，所以这种现象我觉得也是可以理解的。

曾文军，微软亚洲研究院首席研究员

齐国君：arXiv作为一种新的发表形式，和传统形式相比，我觉得它是可运行的。我们可以把传统的发表方式理解成传统的掌握话语权的媒体，它们有一个自上而下的评审机制。而arXiv更像是社交媒体，它把话语权给到了每一个研究者，每个研究者在这个平台上都可以自由发言。它的好处是作为“社交媒体”，大家可以很平等的去交流，意见只要好，就绝不会被淹没。但另一方面，也因为没有一个评审机制，有的发言不是那么正确，这时候对于不同层次的研究者的影响就会不一样。比如一个新入行的学生，他可能就分不清楚哪些研究方法或者研究思路是正确的，会比较容易受到干扰。因此，arXiv的出现，既有好处，也有坏处。

林宙辰：arXiv在学术交流方面绝对有正面的作用，但关键在于我们如何来使用它。如果论文在没有正式被接收之前就去公开宣称你拥有某个新的理论或方法，那么这就不是一个非常正确的做法，大家不要随便去占坑。

总结：大牛们对arXiv的总体评价还是比较正面的，但是需要引起大家注意的就是在arXiv上发表成果时，不要把它作为占坑的工具，更多的是要把它作为学术交流的工具。而作为去看arXiv的读者，大家也需要提高自己的甄别能力，防止被误导。

问题三：现在大量的实验和实践应用中，深度学习都表现出了非常强的学习能力。但是它也有受限的的地方，比如需要大量的训练样本。而AlphaGo的成功在于，它不但之前学了很多棋谱，还用了强化学习。强化学习在围棋和游戏当中可以设计很好的强化学习奖励函数。那么在视觉领域，我们应该怎么来设计一个真正可行的奖励函数，来解决物体的检测、分割、视频捕捉等等工作？

陈熙霖：当我们想拿计算机视觉解决问题时，我们只解决了Where和What，而解决不了How和Why。但当我们要做类似Visual QA的时候就要解决这些问题。所以刚才讲视觉可不可以自己做一个反馈，做一个循环（loop）？我个人认为大多数问题是不可以的。如果要想拿视觉做一个类似于AlphaGo的评价函数，那么它不是单独视觉能解决的，而是需要把视觉能力的评估（Assessment）融入到一个智能系统中，然后由这个系统给出奖励或惩罚，甚至于给一个群体之间的反馈。这样的评价函数是可以做的，但它不是单独来自于计算机视觉的。

齐国君：视觉绝对不是一个单一的系统，AlphaGo的增强学习是根据已有的训练样本，进行建模，挖掘价值信息，并且它可以以当前学习的状态去生成一些新的数据，通过评价函数学习新的信息。但视觉中没有单独的训练数据，没有办法探索新的信息。所以就无法用类似于增强学习的方法去做。

但现在有一种思路，就是边学习边生成一些样本，比如借助于GAN等或者游戏的方法。我们可以在游戏世界中操纵人，通过探索游戏里新的视觉信息、视觉信号，来学习新的信息，从而形成闭环。

曾文军：大家可能知道，微软亚洲研究院机器学习组去年有一个工作，叫对偶学习，它的想法也是想形成一个闭环。以翻译为例，假设我们有一个英文的句子 X，通过翻译模型 F 的作用，得到一个中文句子 Y。那么 Y 作为一个中文句子是不是符合语法，是不是顺畅，X 到 Y 之间的关系是否和英汉词典一致等等，都可以作为反馈信息。同样，当我们用模型 G 把 Y 再变成英文句子 X'以后，也可以去衡量 X'，并作为反馈信息。利用这些反馈信息，我们可以使用包括 Policy Gradient 在内的方法，来一轮一轮地更新模型，直到最终得到两个满意的模型，这个过程就形成了闭环。

王蕴红：不是所有的问题都可以做成有监督的，也不是所有的有监督系统就一定能够有帮助。深度学习是有边界的，视觉也是有边界的，这也为我们探索的空间提供了很多其他的道路。

问题四：华人在CVPR 2017中的表现非常卓越。所以请问各位教授，这个现象能够给我们带来什么启发，或者是警示？

王蕴红：被顶级学术会议接受论文对于年轻的研究者来说是非常好的肯定，但大家不要把它看得过重，因为被接受并不能代表你的研究工作是完全独一无二，可以影响整个领域、甚至技术发展的。我们应当关注我们做了什么有价值的工作。

曾文军：其实真正好的工作最终是看有什么影响。微软也一样，我们现在在评估的时候看的都是影响，而不是有多少篇论文。

林宙辰：我觉得更重要的是要在学术界有一个引导的作用。现在国内的研究者都是在发论文，但是在制定领域的规则方面，还没有起到非常大的作用。所以我觉得大家还是要多参与交流，多发声，比如规则有什么不合理的地方，怎么改进会更加合理，怎么让研究更加有效、有生命力，甚至参与组织改变的过程。

林宙辰，北京大学信息科学技术学院教授

齐国君：如果你在组织中有更大的话语权，那么就可以更有效地推广你的研究工作。比如ImageNet就是通过使用组织的力量把它推广开来的。所以我们需要做的是参与这些组织的活动，积极地在这个组织中为大家发声。

另外，的确现在华人发表的论文越来越多，但还是缺乏有颠覆性的研究工作。因为颠覆性的研究会比我们的论文在一个学术大会上的占有率重要的多。

齐国君，美国中佛罗里达大学计算机系助理教授

问题五：刚才各位的分享，都关注了我们作为计算机社群的一分子，怎么能够让这个社群往更加健康的方向发展。但现在大家也有这样一个忧虑就是，现在深度学习、机器学习在解决计算机视觉的时候显得非常有效，是不是长此以往计算机视觉就会成为机器学习的一个应用，我们这个社群到底应该怎么样独立的、有尊严的向前发展？

陈熙霖：过去，因为没有办法做真正的视觉，我们把它分成了若干个碎片（细分），然后说这是计算机视觉。今天，在每一个碎片上，似乎深度学习取得了成功，但当我们把这些碎片拼回去时，试问深度学习是不是还能实际解决问题？我的观点是，可能就不能了。所以这恰恰给了我们一个机会，去真正研究计算机视觉，而不再是在打破的碎片上研究计算机视觉了。

王蕴红：计算机视觉的传统问题依然存在，机器学习只解决了一部分，但是有很多问题还依然没有解决。在过去每一段时间计算机视觉都有一个发展，而每一段发展都有它非常有利的一面，但是到现在，我们需要探索的问题还有很多。机器学习所能够做的，也是一个范围之内的事情。

曾文军：刚才也说了，现在深度学习做的好的，都是比较细碎的东西。但真正往下做更高层次的东西，包括实际应用上的，可能更多的是视频数据。我们感兴趣的不仅仅是人，而是要知道这个人的行为，他的动作，发生了什么事情，以及一些交互，从时序上其实是有很长延续性的东西。而这些东西现在深度学习还没有做得很好，我们看到的也是比较局部的，一旦需要用到逻辑方面的东西，深度学习现在很难结合进来。

所以仅靠现有的深度学习，很多东西是解释不了的。如果是更复杂的系统，用黑盒去解决它还是有很大难度的。因此，传统的自上而下方法加上知识图谱，再加上一些逻辑上的内容，这些都满足了，可能才能真正解决实际的问题。

林宙辰：机器学习一般都不关心特征是怎么来的，但是计算机视觉里面刚好有这么一个部分是关于Feature是怎么获得的。很多这方面的问题并不是机器学习能够解决的，而且深度学习并不是唯一的机器学习方法，在此之前，很多方法都在计算机视觉里有应用。

而且有很多地方，计算机视觉会有它的独特之处。像立体视觉就需要基于一定的物理模型，所以我们不是简单地做一些端到端的东西就可以了。这两个领域的融合是“自古以来”就有的，并不是新产生的现象。

齐国君：其实机器学习和计算机视觉这两个领域应该是相互依存的关系，而不是竞争的关系。机器学习在很多领域都有应用，但我觉得其中最成功、最有影响力的应用还是在计算机视觉，包括一系列的方法，比如深度学习中的卷积神经网络，这是一个纯粹的视觉问题，后来才引申出一系列新的应用领域。

如果没有计算机视觉中的具体问题，机器学习作为一个纯粹的研究，可能就退化成统计问题了。但正因为有实际问题，提出了一些困难和需求，才促进了机器学习的研究。所以我觉得机器学习和计算机视觉还是彼此相互依存、相互促进的关系，而不是对立的竞争关系。

更多“微软亚洲研究院创研论坛——CVPR 2017论文分享会”的精彩内容，请点击【阅读原文】或复制以下网址至浏览器观看直播回放：

http://www.xuetangx.com/event/cvpr2017

你也许还想看：

感谢你关注“微软研究院AI头条”，我们期待你的留言和投稿，共建交流平台。来稿请寄：msraai@microsoft.com。微软小冰进驻微软研究院微信啦！快去主页和她聊聊天吧。

登录查看更多

相关内容

王蕴红

关注 0

王蕴红，北京航空航天大学计算机学院副院长，中国计算机学会理事，中国人工智能学会、图象图形学会常务理事，中国人工智能学会智能交互专业委员会主任，计算机学会推荐的A类学术期刊IEEE Transactions on Information Forensics and Security编委，IEEE Senior Member。在模式识别与图像理解方面进行了深入研究，在人脸识别、步态识别、虹膜识别、物体识别、信息隐藏检测方面的成果被广泛引用。作为负责人已主持国家级自然科学基金、863项目、973课题16项。虹膜识别的文章被评为《自动化学报》50年来最具影响力论文。在IEEE Transactions on PAMI等权威国内外学术期刊和国际会议发表学术论文200余篇，发表论文被Google Scholar引用9千余次，获得授权国家专利14项。2005年入选教育部新世纪优秀人才，曾获国家技术发明二等奖、北京市科学技术奖一等奖，2013年获得中国青年科技奖。个人主页：http://people.ucas.ac.cn/~0013601

如何写论文？这份《科研论文撰写策略》看下

专知会员服务

148+阅读 · 2020年6月15日

【CCF计算机视觉专委会】未来5-10年计算机视觉发展趋势，

专知会员服务

104+阅读 · 2020年5月20日

基于视觉的三维重建关键技术研究综述

专知会员服务

166+阅读 · 2020年5月1日

2020年中国《知识图谱》行业研究报告，45页ppt

专知会员服务

240+阅读 · 2020年4月18日