独家 | MIT周博磊：CV本质上是一门科学研究

2017 年 8 月 11 日 AI科技评论 奕欣

AI 科技评论按：如果你常逛知乎，相信你对周博磊并不陌生。周博磊目前是 MIT 在读博士生；知乎深度学习（Deep Learning）、机器学习、人工智能话题优秀回答者，目前有近两万的知乎关注者。在 CVPR 2017 上，周博磊牵头分别组织了一个 tutorial (http://deeplearning.csail.mit.edu/) 和 workshop (http://sunw.csail.mit.edu/)，获得了不错的反响。

在参会期间，AI 科技评论与周博磊进行了一次交流，他分享了对计算机视觉研究的一些心得体会。

周博磊，MIT CSAIL 五年级博士生，师从 Antonio Torralba 教授。本科于 2010 年毕业于上海交通大学生物医学工程系，2012 年在香港中文大学取得信息工程硕士学位。研究方向为计算机视觉和机器学习。

个人主页：http://people.csail.mit.edu/bzhou/

知乎主页：https://www.zhihu.com/people/zhou-bo-lei/answers

为何能办一场爆满的 tutorial？

CVPR 是计算机视觉领域的主流会议，物体识别和场景分析是计算机视觉里面的核心问题，邀请到的嘉宾也是在这个方向有重要贡献的研究者，所以我们的那个 tutorial 整个是 full house（爆满）。邀请的嘉宾之一 Ross Girshick（Facebook 人工智能实验室研究科学家）和我在聊的时候也提到，他也挺惊讶有这么多人关注 object detection 的问题，而并不只局限于 GAN 和生成模型这些比较火的领域，毕竟物体识别还是计算机视觉的一个核心问题吧。群众反响比较好的话，就说明这个（tutorial）还是办得比较值得。

我邀请了恺明、Ross 还有晓刚老师，包括我自己，一起作为演讲嘉宾，这个 Tutorial 的主题包括物体识别、场景识别以及神经网络的可解释性问题等，都和大家的研究方向有关，也是一个比较好的结合点。他们也是研究这个领域比较领先的学者，就这样组织起了本次 CVPR 的一个 tutorial。（友情提示：演讲 slide 已经放在主页上，视频随后也会放出）。

CVPR 的总体感受？

今年（CVPR）感觉华人（中国）公司挺多的，从论文角度来讲，相对于理论和系统领域，计算机视觉一直也有很多华人在做研究。这次过来我更关注的是和人交流。新的 paper 很多其实在 arXiv 上面都有。主要还是和以前认识的朋友重新聚一聚，和了解过工作的研究员进一步面对面交流。

研究领域的话，其实 workshop 就是一个体现前沿趋势的环节，比如第一天的 visual interaction（视觉交互），虽然去的人不多，但我觉得是一个比较重要的方向。物体识别和检测目前已经做到极限了，那么物体之间的交互可能就会是进一步的研究方向。

另外一方面是我自己马上博士毕业了，准备找找教职和 industry lab 的研究工作，CVPR 也是一个可以了解这些信息的来源。

计算机视觉有何研究趋势？

现在比较火的应该是视频的分析和识别，包括谷歌和 Facebook 其实都投入了很大的人力在做，就像 Facebook 的机器学习组其实都招了挺多研究视频的人，可能在 10 月份 11 月份的时候会发布一个更大的视频数据集。我觉得可能未来会有更多的东西可以做。

另外，因为识别问题目前已经做得非常好了，识别的下一步可能会是什么？下一步可能会是认知的任务，或是提升到推理的层面。比如系统识别出这里有个茶杯，但它是基于什么在支撑？其实是底下的桌子，这就是一个物体交互的过程，会涉及到更多认知层面的东西。

AI 研究的工程化和平民化

在做研究的过程中，我一个很深的感受是，现在的深度学习或者说 AI 的研究变得越来越工程化了，变成一种群体作战。这也可以解释为什么现在公司其实是占优势的。因为它们有很多工程师，可以帮你把平台搭得很好，有很多研究员一块来做研究，整个事情就是一个比较庞大的系统工程；而不像之前，可能一个人两个人在实验室，就可以倒腾一个东西，现在可能变得越来越系统化了。

另外一点就是变得更平民化了。现在大家的数据和代码都很快开源，门槛变得越来越低。像本科生如果愿意去学的话，其实是可以很快在一个子领域做出一些突破的。这个研究也不一定会有多大的创新，但因为计算机视觉有太多的子任务了，所以选一个方向努力做几个月，可能就可以在顶级会议上发一篇 poster，难度也不像五、六年前那么大。

以后会议可能更多的是一个交流的过程吧，现在 CVPR 的接收率接近 30%，可能在五、六年前只有 23％到 24% 的样子，而且投稿的论文也几乎 double 了（AI 科技评论按：CVPR 2017 年有效投稿 2620 篇，录用 783 篇）。我第一次参加 CVPR 是在 2011 年的时候，开会的地方（Colorado Springs）就比较偏僻，参加者可能也就一千多人。

第二个是，深度学习方案确实开始 work 了，所以公司可以很快跟进并整合到自己的系统里面。MIT 自己和三星、美国政府还有一些带军方背景的公司有合作，但高校一般不会和比较小的公司合作，因为小公司可能对产出有比较快的要求，如果是做基础研究的话，不会那么快地看到产出。另外有些公司的需求可能也比较简单，工程师也能做到的，就不需要放到学校里面来做。

但现在 AI 的整个研究变得越来越实际了，工业界以前是给学校资金支持，然后找一些有想法的老师一起合作；现在更普遍的模式是工业界自己建立研究院，雇佣一些老师来工业界，并且用 engineering 和资源去支持老师的研究工作。包括像李飞飞这样的老师加入谷歌，因为谷歌的资源比较充足，她可以做更多的事情，如果这些都让她实验室里仅有的几个学生来做的话，其实不太现实。一方面是学生自己也要花时间学习，另外也没有这样的平台或数据去从头实践这样一个系统。

就学就业的选择

我对自然界的东西比较感兴趣，有点像「师法自然」这样的，喜欢研究各种生物系统。高中的时候我其实是搞生物竞赛的，后来去了上海交大，大一在生物实验室做了一阵子，觉得不是那么有意思。后来和侯晓迪一起玩乐队的时候受他影响挺大的，开始上手视觉方面的研究，那时候还是 07，08 年的样子，计算机视觉还不怎么 work。有意思的是，当年侯晓迪推荐给我看的第一篇论文就是我现在导师（Antonio Torralba）的作品，当时也没想到后来会选他（做导师）。大三的时候就在计算机系那边跟着张丽清老师做 CV 的研究，之后就到香港中文大学跟着汤晓鸥老师和王晓刚老师做研究，更加坚定了做研究的想法，硕士毕业后就来 MIT 了。

未来（选择）留在学校对我的吸引力是多方面的吧。一方面是可以更自由地去做研究，第二个是可以带学生，一起去做这件事情，也不是每个人都想去公司，对吧。

我觉得计算机视觉本质上是一种 science（科学），怎么发现一个好的问题是更加重要的，可解释性其实就是一个比较有意思的问题。当时我们收集了很大的一个场景分类数据库，训练了一个模型后发现准确度非常高。我导师的第一篇论文就是做场景分类的，他就觉得很不可思议，为什么机器能够达到人的水平。我们就开始做一些可视化的工作，后来这篇论文投到 ICLR 2015 上中了 oral，当时也就十几篇（oral）吧，而且其他的论文都是工业界的文章，像谷歌、微软和 Facebook 这些。所以我们这篇论文就有种让人眼前一亮的感觉，因为我们更像一种从科学角度去探讨问题的感觉，从设计问题到实验过程都不是那么工程化，本质上更像是一种探索。

深度学习其实不是一个黑箱，它里面的结构还是比较清楚，只是说大家觉得参数这么多好像很难理解。比如我们 15 年 ICLR 的工作就说明了一个这样的问题，当我们训练了一个场景分类的模型之后，它里面就学会了很多 object detector 的内容。比如说你觉得这是一个客厅，是因为你看到里面有电视、有沙发；那么我们在教神经网络识别的时候，它也是同样检测这张图里有没有电视和沙发，然后再分类为客厅的。这个过程实际上和人的识别过程是很类似的，我觉得以后会有更多的工作去研究这方面的问题。（http://arxiv.org/pdf/1412.6856.pdf）

我前两个月去参加了一个叫 VSS（Vision Science）的会议，这个会议主要探讨的就是做 vision science 的人是怎么解决视觉问题的，他们就是从人脑、从认知的角度去探讨问题，对我的启发也很大。

回到 CVPR 的 tutorial 上，其实昨天恺明和 Ross 分享的都是怎么把性能提升，怎么去训练一个更深的模型，这是故事的一个方面；故事的另外一方面是，这些训练得到的优秀的表征到底有些怎样的含义，如何比较不同的表征的语义性，能更好的帮助我们理解内部的运作机制，这也是我的一个研究方向。