从跨专业读CV博士，到获得谷歌PhD奖研金！武宇只用了两年

会员服务 ·

从跨专业读CV博士，到获得谷歌PhD奖研金！武宇只用了两年

2020 年 10 月 31 日 CVer

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：AI科技评论 | 作者：陈彩娴

从跨专业读博的CV小白，到成功入选2020年Google PhD Fellowship，武宇只用了约两年时间。

武宇的本科就读于上海交通大学机械与动力工程学院，本科期间所学习的绝大多数课程都与他目前所从事的计算机视觉（CV）研究无关。2017年，武宇赴澳大利亚悉尼科技大学（UTS）攻读博士学位，师从杨易教授。

在申请谷歌博士生奖研金的proposal中，武宇围绕第一视角的视频理解，提出了三个研究方向：1）挖掘人的动作和物体之间的交互信息来提升识别性能；2）借助声音来提高系统预测的鲁棒性；3）加快移动设备的网络速度，使其摆脱有限算力的约束。

事实上，武宇似乎比其他学霸走了更多的“弯路”：

2011年，保送上交大时曾获得任选专业的机会，他没有选择计算机专业；

2013年，在依图科技创始初期加入团队担任算法研究实习生，中途退出，错过依图的腾飞；

2015年，直博上交大智能机器人实验室，又在2016年退学。

每一段折腾的人生背后，也许都是一颗不服输的灵魂。

成也NOIP，“败”也NOIP

2008年，迎接北京奥运会的喜庆氛围传遍全国大街小巷。那一年，武宇参加中考，成绩优异，获得了山东省菏泽市曹县第一名。但他仍在复习考试，准备一场更重要的考试：山东师大附中的全省招生考试。

山东师大附中是山东省最好的高中之一，是众多学子梦寐以求的圆梦之地。在 2006年，山东师大附中成立了第一届省招实验班，面向全省招生。2008年，他们计划招聘80名尖子生，在中考结束一个月后独立招考。

在这场难度堪比奥林匹克竞赛的考试中，武宇顺利通过考试，成为了第三届省招班的一员。

（高中时期的武宇）

从小县城到位于省城济南的山东师大附中读高中，被武宇认为是第一个改变命运的人生转折点：他因此开阔了自己的视野，接触到NOIP（全国青少年信息学奥林匹克联赛），摆脱了小镇做题家的命运。

武宇提到，在上初中时，他所就读的学校离家特别近，走路就能上学。而上了高中后，因为离家远，要住宿，生活发生了很大的改变。“加上当时年龄比较小，所以一开始很不适应。”

但也正是省招班的这一特点，帮助武宇克服了这一点：由于班上的同学都是来自全省各地的，所以大家一块住校，情感上比较有共鸣；周末放假无法回家时，大家便结伴，一起在教室学习，一起打球，一起在济南市区到处逛。

地理位置的变动，给武宇带来的不仅是生活的变化，还有更大的成长平台。

“在小县城读书时，视野有限，完全是照着课本内容研究怎么做题与准备高考。”

相对而言，山东师大附中偏重素质教育，不只培养文化课，还为学生提供了许多开阔视野的机会与选择，比如丰富多彩的课余活动，比如基于兴趣爱好的各种竞赛，包括NOIP。

高一那年，武宇从学校竞赛辅导老师的宣讲中了解到各种竞赛兴趣组，同学们可以根据自己的兴趣爱好报考，且不限制要有基础。于是，从小对计算机感兴趣喜欢打电脑游戏的他，便决定报考NOIP课外班。

2008年10月选好竞赛方向后，武宇从零基础开始接受高强度的训练。

在高一整个学年里，参加竞赛的学生需要每周六集中上课，连续上一整天。老师在大屏幕上演示算法，解释计算机里常用的算法与数据结构等基础知识，学生以学习知识为主。

回忆那段经历，武宇形容自己“过得很痛苦”：一是高强度训练；二是零基础开始学习竞赛的内容，一直感觉自己学不懂。

“一上来就讲数论与动态规划，需要你有较强的建模能力，把一个具体问题抽象化为数学里的一种状态转变。”

与班上其他从初中就开始学算法的同学相比，武宇的学习进度无疑是落后的。他的一些同学在初中就瞄准了NOIP的竞赛方向，掌握了知识，在高一刚开学时便参加了NOIP竞赛，并获得了一等奖，而武宇与其他同学才刚开始挣扎。

这段时间里，有同学已陆续退出，而武宇仍在坚持。

好不容易熬过了高一学年的高强度训练，没想到接下来的冲刺阶段压力更大。

“那段时间的感觉就是：每天醒了之后就是一直做模拟，一直做到半夜才睡觉。”

第二阶段的训练时间安排在高一结束后的暑假到高二的第一个月。在这一阶段，所有参加竞赛的同学把所有时间都用在为竞赛做准备，全天趴在学校的机房里去回顾知识，根据竞赛辅导老师出的算法模拟题，不断去做编程实现。

最后，编程小白武宇在高二开学的NOIP竞赛中取得佳绩，获得了山东赛区一等奖。

获得NOIP一等奖后，武宇具备了保送的资格，随后凭借优秀的文化课功底，高三寒假在华约五校联合自主招生考试取得高分，收到了上海交通大学的offer，并获得任选专业的机会。

（08级省招班获得NOIP一等奖保送的同学合影，前排右一为武宇）

NOIP竞赛虽然已结束，但这段难忘的经历仍继续影响着武宇的人生。

他上大学后没有选择计算机专业，便是因为NOIP竞赛的高强度训练给他留下了巨大的心理阴影；而大二进入依图实习，以及之后转专业申请博士，又都是因为参加NOIP的经历给面试官留下了“编程技术不错”的良好印象。

保送交大，却没有选择CS专业

一选完（机械专业）就后悔了。

武宇在2011年3月（高三的第二学期）收到了保送上交大的通知，而且获得了提前感受大学生活的机会：5月初去上交大报到，由学校安排几门课，提前了解各个学院各个专业的情况，最后决定自己的专业。

在学校安排的课程中，有一门便是比较难的算法数学。

武宇回忆：“这让我想起了当年NOIP训练时学动态规划的痛苦经历。”

被NOIP支配的恐惧让武宇深感自己并不是学计算机的料，便毅然决然地放弃了计算机专业，与ACM班失之交臂。

基于对计算机知识十分抽象的印象，武宇倾向于选择一门较实际的专业。“加上我的物理成绩一直很好，我就选了能动手的机械专业。”

但在大一真正接触到机械专业的课程之后，武宇发现机械专业的课程并不如他所想象的那么实际。

比如说，力学研究结构的受力分析，在19世纪便建立了一套理论，理论的内容在之后便没有发生过太大的变化。一些理论只适用于非常理想化的建模，不适用于复杂的现实情况。比方说，在做一个具体的研究时，把理论照搬过来，算出来的值仍有很大的偏差。

“学了很多理论，在实践课上做一些系统或结构时，却发现之前所学的理论没有太大的用处，没有之前所想象的那种所见即所得的感觉。”

而相比起来，计算机科学虽然有很多算法要进行抽象与建模，但在评价时是基于实际的输入与输出，“让我感觉更真实一点。”

此外，计算机技术的发展非常快，更符合符合他对科研方向的追求。

武宇总结，“本科的机械专业学习中，只有数学理论基础对之后的CV研究有用。”

对计算机专业的热爱在他进入依图实习后更加强烈。

而于此同时，也许与大多数青涩的本科学生一样，虽然对机械专业并不感兴趣，武宇仍无法果断“怠慢”专业知识。他仍然十分认真地对待学习，并在本科期间获得奖学金，又在本科毕业后获得了直博机会。

（大学宿舍毕业照合影，右二为武宇）

留校直博时，武宇特地选择了机器人实验室，其中包括了一些计算机视觉的应用。但由于他所选择的机器人实验室是建立在机械与动力工程学院下，CV的研究大约只占10%，且是基于机械专业的知识，而非纯计算机知识，与武宇的研究兴趣大相径庭。

挣扎不到一年，他便决定从实验室退学。

错过依图的腾飞

错过依图的腾飞，可能是武宇这辈子最后悔的事情，没有之一。

“事后每次回忆这段经历，我都要拍断大腿，感觉错过了一个亿！”

依图科技成立于2012年9月，如今已跃升为“AI四小龙”之一，在2019年估值便已达到150亿。

而武宇在2013年4月加入依图担任算法研究实习生时，团队只有10个人左右。

尽管武宇非计算机专业，但依图的团队刚成立，急缺人手。此外，武宇曾参加过NOIP，创始团队中也有许多人是从NOIP出来的，因此面试官认为武宇的编程基础应该不错，“学一学就能上手了。”

也是在进入依图科技实习之后，武宇才开始接触到计算机视觉。

在此之前，武宇对计算机的认识仅停留在算法层面，认为只有在设计计算机的一整套系统，工厂有特殊需求，或计算机系统有要求的时候，才会用到算法。计算机算法所解决的问题，并不是在现实生活中随时随地都能看到的。

进入依图实习后，武宇仿佛打开了新世界的大门：“计算机竟然能自动识别视频中的文字。”他发现算法的应用范围非常广，不仅可以应用于路边的监控，还可以用于用户的个人设备。

武宇的主要工作内容是跟着mentor戎术做车牌的字符识别。

车牌有蓝色、黄色、绿色等，如果把能够识别出蓝色车牌字符的模型经验照搬过来，用于识别其他颜色车牌上的字符，则效果不佳。

在实习期间，武宇针对黄色、绿色与其他颜色的车牌，重新训练了一套SVM模型的分类，以及探索如何选用更合适的特征表达。

2013年仍是手工特征和SVM的时代。当时还没有出现CNN，大家用的都是传统的特征。他们会进行算法的评估，以及尝试解释为什么在某种情况下，这种算法比另一种算法更好。

武宇虽然掌握一些编程技术，但对CV是零基础。在戎术的指导下，他从一个个基础的字符识别实验开始做起，尝试看论文，去理解什么是HOG和SIFT。

“我特别崇拜戎术，虽然当时他给我讲的各种最新paper，我一直没太理解。”

实习约半年后，武宇了解到一些前沿的CV算法，却因大三学业繁忙而离开了依图。

成立初期，恰是生命力最强的时候。

回忆依图的初创时期，令武宇印象最深刻的是团队的激情。他回忆， “当时团队里面有很多上交大在读的学生，有些人甚至选择了退学加入依图，去做一件当时看起来像梦想一样、并不知道之后会这么成功的事。”

团队是一群很有激情的年轻人，干活非常有冲劲，经常工作到很晚，但他们是非常快乐地在工作，而不是被动地加班。大家也会一起吃饭，聊各种趣事，氛围特别好。

尽管武宇现在也如愿从事了自己感兴趣的CV研究，并取得成绩，但再次询问是否后悔当初的选择时，老实人武宇还是坦白了心中的遗憾：

“说实话，还是挺后悔的。”

但问到博士毕业之后会不会去依图应聘，武宇说：

“不会。因为我以后想做自由的学术研究，打算去高校。”

AI小白成长记

从上交大博士退学，到跨专业赴澳读CV博士，显然需要极大的勇气。

刚到“土澳”时，武宇仍是一个AI小白。如今，两年过去，武宇已在CVPR、ECCV、ICCV等计算机视觉顶会上发表18篇论文，其中一作5篇。

武宇将他取得学术成果的原因总结如下：

1）运气好，在充满不确定性的研究道路上所选择的研究方向，恰巧都是比较准确的。

2）导师与合作者的鼓励。当武宇对自己正在研究的内容没有信心、想要中止研究时，导师与同学曾多次给出建议，深信武宇所选择的研究方向是能够走通的。“他们会鼓励我继续深入研究。”

3）以一种积极自信的心态去清除在研究道路上所遇到的障碍。

4）投入了非常长的时间：“熬夜是常态，感觉每天都在熬夜。”

武宇自2017年7月起在悉尼科技大学ReLER实验室（Recogntion, Learning and Reasoning Lab）攻读CS博士，师从杨易教授。除了武宇，杨易教授的另一位学生董宣毅在2019年也获得了Google PhD Fellowship。

（杨易教授）

谈及导师杨易教授，武宇认为他是一个精力非常充沛的人：

“ 与学生交流比较多，每天都会跟大家聊很久，谈他现在的想法，以及了解学生的近况，挫折也好，情绪波动也好，总之能够及时了解学生的心理状况。”

与其他从本科开始就学习计算机专业的CV博士生相比，武宇的博士申请似乎并不具优势。

武宇之所以想到申请杨易教授的博士生，主要归功于自高中一起学习NOIP的女友林雨恬（现已为妻子）。

林雨恬与杨易教授同为浙江大学计算机学院的校友。武宇在上交大读博一时，林雨恬便已在杨易教授门下做CV研究。通过女友，武宇了解到杨易教授的团队做计算机视觉的情况。对比上交大的学习内容，武宇认为杨易教授这边的研究更有趣。

在女友的牵线下，武宇在2016年5月开始与杨易教授接触。

武宇的本科为机械专业，此前也没有发表过CV相关的论文，而他打动杨易教授的点主要在于：

1）有编程基础，技术能力过得去。

2）在同时申请的学生中，武宇对CV的了解更深（源于在依图的实习经历）。

3）杨易教授认为，武宇之所以下决心从上交大退学，应该是有破釜沉舟的勇气，有一个明确的方向，将来的工作会做得好一些。

此外，当时杨易教授有很多funding，实验室在快速扩张，2016年那时的竞争也没有现在这么激烈：申请者大都发表过顶会论文。

回想刚读博士时被Google的"Attention is all you need"折磨的场景，武宇仍是恨得“咬牙切齿”：

“Tensorflow+工业化code各种复用。paper看不懂，看懂了paper，code又看不懂。”

为此，武宇花了半年多时间给自己打基础：不断读论文，弄明白基础的技术。

“一天24小时，除了睡觉，醒着的时间都完全投入到打基础这件事上。所以那个时候可能整个人看起来有点疯疯癫癫的。”

武宇当时读的论文都是导师与学长所推荐的。对于AI小白来说，自己找论文读是不太现实的，一是因为论文很多，二是每篇论文的质量参差不齐。新入行的学生很难对论文有一个基础的判断。

（ReLER实验室参加ICCV 2019成员合照）

“他们（导师与学长）会选择一些他们认为有价值的工作，或者是在这个行业里面真正有技术性突破的工作。另外，如果看不懂论文A，他们可能会给推荐论文B，因为论文A是受到了论文B的启发，且论文B讲得更具体。这样看论文时，你会更加理解其中的知识点。”

对论文的写作者来说，他们认为有些内容是基础知识，一般不会花大笔墨介绍，而刚入行的小白可能恰是因为对这些基础的想法不了解，所以看不懂。

这时候，如果不去探究论文背后的原始知识，那么对论文的理解也就停留在表面；但自己去找这些基础知识的话，又可能找不到一些比较有用的文章，所以导师与学长给的帮助是非常重要的。

“因为他们非常了解这些知识，所以就能给你清楚地讲出它的来龙去脉，以及当中的一些震撼想法。”

此外，在中了两三篇顶会一作之后，武宇便受邀当过CVPR，ICCV，ECCV，NIPS，AAAI，ACM MM，TPAMI，TIP，TNNLS等杂志期刊的审稿人，帮助自己追踪到自己所在领域的研究现状与研究热点。

（武宇参加CVPR 2019）

对于新入行的CV小白，武宇认为最重要的是要建立信心，不要在一开始做不好之后就自暴自弃，也不要拿初学者身份当成放松要求的借口。

而建立自信的方法也有很多，比如说：

1）经常请教导师与学长，请他们帮你梳理知识思路。

2）假如代码看不懂，要静下心来啃硬骨头。在这个过程中，会逐步积累小的自信，“觉得我能掌握这些代码。”

3）不断收集正反馈：做研究取得小的突破，比如性能提升了一点，就继续深入研究，去看是否验证了自己当初的猜想，慢慢建立起更大的自信，坚信自己是可以做研究的。

4）不断地让自己感觉到所做的研究是有价值的，是比较前沿的，再到中了第一篇论文，很快就能够建立起做研究的信心。

在武宇看来，转专业读博最忌的是把“自己就是个小白”当成借口，逃避现实，不去消化难度高的知识：

“不要以为看不懂论文是应该的，然后蜻蜓点水地阅读，读论文时没有去理解论文的整体框架与背后驱动的知识原理，这可能会忽略到一些重要的内容，而这些内容可能恰恰是你下一次在技术上继续做突破的重要基础。 ”

总结而言：从小白到大神的蜕变，中间必然会经历一段痛苦的捶打。而只要熬过一段时间，则会柳暗花明。

被谷歌青睐的研究

武宇申请谷歌博士生奖研金的proposal主题为“Towards Multi-modal perception in Egocentric Videos”，主要研究内容为：设计轻量的综合感知模型，用于提升第一视角视频理解的准确性、鲁棒性和高效性。

传统的第三视角视频理解一般聚焦在专业录制的视频（比如体育比赛），而第一视角更贴近个人用户的生活。比方说，当年的Google Glass（谷歌眼镜）与用户手机拍摄便是第一视角视频，主要用于记录个人的日常生活。

在传统视频中，模型在很大程度上是通过判断整个场景的概括图来了解某个人在做什么事情。比如说，模型看到了Ta在篮球场上，基本可以判定Ta是在打篮球，Ta在游泳馆内，就是在游泳。但是，这对分析个人用户的细粒度动作是没有太大帮助的。

而在第一视角的视频理解中，比如人呆在房间里一个星期，在家里面做了很多事情，可以分为不同的动作类别，如切黄瓜、喝牛奶、倒垃圾、开冰箱。如果仅是判断场景，那么只有一个结论：都是在厨房里。这个结论没有鉴别性，很难对用户的行为进行细粒度的分析。

针对这个问题，武宇及团队提出非常具体化的识别方案，即去识别场景里面的细粒度行为。他们设计了一些新的模块，主要从三个方向入手：

1）引入目标检测提升识别性能

考虑到第一视角的视频一般是用户自己在家里拍摄的，而场景理解只能通过一个传统的大场景去抽取一个特征，识别的表现欠佳，因此，武宇及团队成员在传统视频理解的基础上引入了目标检测，对第一视角摄像头所拍到的场景进行目标检测。

目标检测的结果能够与动作进行交互，从检测结果中判断一个人正在进行的事情。比方说，检测出一个菜刀与案板，旁边放着一条黄瓜，那么就可以识别出当下的动作是：在切黄瓜。通过关注视频的整体特征，检测出来的目标增强了模型进行判断的可靠程度，因此提升了识别的性能。

2）辅以声音来提升识别系统的鲁棒性

第一视角与第三视角的视频有一个重要的区别：在第一视角的视频中，你要表达的主要物体可能会被移到镜头之外。比如你用手机或头戴式摄像机在拍摄某个物体时，你的镜头可能会偏移，这时候你会很难识别出当前的动作。

（声音辅助动作识别）

在这种情况下，为了得到鲁棒性较高的预测，他们在其中加入了声音去辅助判断。在第一视角的视频中，声音与行动者（actor）非常靠近，所以声音非常清晰，且不受摄像头拍摄范围的限制，因此声音能提供一些额外的信息。

比方说，我在拍视频的同时，我也在喝水，摄像头一般不会拍到手拿着杯子喝水的过程，但我能听到喝水的声音。声音可以对预测进行修正，提高预测的鲁棒性。

3）提高移动设备的网络处理效率

移动设备与可穿戴设备的算力一般比较有限。针对这个情况，武宇及团队正研究如何让网络变得尽量快速。他们希望能够通过很小型的网络就能取得满意的效果。

主要的思路是：要理解识别出一个动作，我们并不需要对视频中的每一帧都进行特征抽取和分析。我们可以用一个非常轻量级的网络，对视频中的每一帧判断其重要程度。最终只需要用到很少的关键帧就可以实现整体视频的识别效果。

该研究此前已取得一定的成果。武宇及团队在2019年与2020年参加了两届 CVPR EPIC-Kitchens Action Recognition Challenge，均取得第一名。

此外，武宇曾在AAAI、TPAMI与ICCV等顶会上发表过研究第一视角视频动作识别与声音辅助视频的相关论文，包括被AAAI 2020选为oral paper的“Symbiotic Attention with Privileged Information for Egocentric Action Recognition”，以及被ICCV 2019选为oral paper的“Dual Attention Matching for Audio-Visual Event Localization”。

写在最后

如今，武宇更倾向于去高校做研究，主要原因在于：与企业相比，学校的科研氛围比较自由，没有规定科研者所做的研究一定要有短期落地、商业变现的应用。

而在短期内看不到落地应用的基础性研究，企业一般不会支持，因为企业主要还是以市场为导向的。

回首过去这么年的折腾，武宇谈到，无论是选择参加NOIP竞赛，还是从上交大博士退学，其实都是非常重大的决定，但父母都给予了极大的支持。

千帆过尽，武宇已找到自己坚定的方向，还收获了美满的爱情，相信在不久的将来，他将取得更大的辉煌。

目标检测综述下载

后台回复：目标检测二十年，即可下载39页的目标检测最全综述，共计411篇参考文献。

下载2

后台回复：CVPR2020，即可下载代码开源的论文合集

后台回复：ECCV2020，即可下载代码开源的论文合集

后台回复：YOLO，即可下载YOLOv4论文和代码

重磅！CVer-目标检测 微信交流群已成立

扫码添加CVer助手，可申请加入CVer-目标检测 微信交流群，目前已汇集4000人！涵盖2D/3D目标检测、小目标检测、遥感目标检测等。互相交流，一起进步！

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加群

▲长按关注我们

麻烦给我一个在看

登录查看更多

相关内容

杨易

关注 0

杨易，浙江大学特聘教授。发表论文200余篇，Google Scholar 引用3万余次，H指数89，在工程学和计算机科学两个领域同时入选科睿唯安全球高被引学者；2021年人工智能全球最具影响力学者榜单中，经典AI、多媒体、计算机视觉和数据库四个领域前100最具影响力学者之一。曾获教育部全国优秀博士论文、浙江省自然科学一等奖，以及澳大利亚计算机学会颠覆创新金奖、谷歌学者研究奖等10余次国际奖项。

沈向洋博士：科研七个坑，我的“求之不得”职业生涯之感悟

专知会员服务

36+阅读 · 2020年11月17日

ICLR 2021 评审出炉！来看看得分最高的50篇论文是什么！

专知会员服务

41+阅读 · 2020年11月13日

如何撰写好你的博士论文？CMU-Priya博士这30页ppt为你指点

专知会员服务

58+阅读 · 2020年10月30日

《人工智能新数学问题: 广义约束》，中科院自动化所胡包钢研究员

专知会员服务

40+阅读 · 2020年10月27日