马腾宇：AI 学界一颗冉冉升起的新星

2020 年 2 月 23 日 AI科技评论

作者 | 贾伟

编辑 | 丛末

本科毕业于清华姚班，博士毕业于普林斯顿大学，如今年仅31岁的马腾宇，作为 AI 学界的一颗新星正冉冉升起。

马腾宇目前担任斯坦福大学助理教授，其主要研究兴趣为机器学习和算法方面的研究，课题包括非凸优化、深度学习及其理论、强化学习、表示学习、分布式优化、凸松弛、高维统计等。

2017 年，清华 “姚班” 创立者、中国科学院院士、中国首位图灵奖得主姚期智先生在谈及姚班教育的时候，曾提到：

“在学界的，我们有好几个做人工智能的学生，已经在大学任教的有两个，一个是在美国的杜克大学，一个是在美国的斯坦福大学做教授，他们都从事人工智能理论基础方面的工作。他们在过去的四五年，在人工智能理论方面已经非常非常出色，不然他们也不会被雇到这么有名的大学去，尤其是马腾宇，他刚刚毕业，能够被雇到斯坦福去，不管是中国学生还是外国学生都是非常少的。……他们确实可以说在人工智能领域是先驱，将来一定会在该领域留下非常深刻的痕迹。”

马腾宇对算法理论的兴趣始于姚班。据马腾宇介绍，让他印象最深的是当时姚期智先生为当时姚班大一新生所开设的一门课程《mathematics for computer science》，姚期智在这门课程中，每个章节都会用一两个最为经典的案例让学生非常快速地意识到，为什么在计算机领域数学非常有用。姚期智在这门课程中并没有按部就班系统地介绍计算机理论领域的细节问题，最重要的则是激发起学生对计算机理论问题的兴趣。这就相当于在计算机理论研究这场寻宝游戏中，激发起学生们对“宝藏”的渴望，至于如何寻找这些宝藏，学生们则自会摸索。这对姚班学生的兴趣培养非常重要，马腾宇也深受影响。

马腾宇是清华姚班 2008 级毕业生

像之前以及之后的学长和学弟以及身边的同学一样，从姚班毕业的马腾宇在本科期间醉心于计算机算法的研究。2012年本科毕业后，他选择了在普林斯顿读博，师从的Sanjeev Arora教授。

马腾宇开始读博的时间恰逢其时。2012年，Hinton和他的学生在ImageNet比赛中凭借AlexNet远超第二名10个百分点，由此人类进入了人工智能的新时代 —— 以神经网络为代表的深度学习时代。Sanjeev作为算法领域的领军人物，具有极为敏锐的嗅觉，意识到机器学习（特别是深度学习）将成为一个具有潜力的领域，因此从2012起便开始布局机器学习算法的研究。马腾宇进入普林斯顿后，选择了机器学习算法，与鬲融等人一起进行非凸优化的研究。

在2012年的时候，大多数人还在用传统方法来做优化问题，这些基本上都是凸优化问题。而在深度学习的时代，算法通常需要通过解决一些非凸优化问题来找到最优的神经网络参数。理论上非凸优化是一个NP-hard问题，但实际中即使非常简单的算法也能表现很好。其中原因却少有人了解。马腾宇与鬲融等人是最早一批专注于解决这一问题的研究者。随后正是凭借对非凸优化问题的系统研究，马腾宇在 2018 年获得了ACM博士论文奖荣誉奖(Honorable Mentions)，而鬲融也在2019年获得了斯隆研究奖。

马腾宇的博士论文，获2018 ACM 博士论文荣誉奖

一个好的导师，对一个学者的研究生涯至关重要，因为导师的学术价值观和方法论会深刻影响其弟子在以后研究生涯中的态度。Sanjeev无疑是一位好的导师，他所带的学生毕业后大多都去到了美国顶尖大学任教，例如鬲融毕业后去到了杜克大学。

马腾宇（2015），Source: princeton news

在普林斯顿期间，导师Sanjeev对马腾宇的影响也是极大的。马腾宇对他的评价是“Sanjeev是一个‘true scientist’”：

“Sanjeev是真的为了科学在做科研。对他关心的问题，他会细扣所有的细节，从证明，到实验，到写文章不容许一丁点的错误存在。另外，Sanjeev也非常的积极，非常的有耐心，在一个新问题上，他常常会锲而不舍，从各种可能的角度去尝试，即使最初所有的尝试都失败了，他也仍然会一遍又一遍地去尝试新的想法，直到最终成功。这是我从他那里学到的非常重要的一件事情。”

当然，导师的影响只是成功的一个方面，马腾宇自身的天分和勤奋让他在普林斯顿的五年时间里收获良多。

2014年，马腾宇获得了西蒙斯研究生奖（理论计算机科学方向），随后2015年获得了IBM博士奖学金，2016年获得了NIPS 最佳学生论文奖，2018年获得了COLT 最佳论文奖，其博士毕业论文也获得了ACM 博士论文荣誉奖，并在当年夏季收到了来自全球计算机Top 5中的四所高校（MIT、CMU、斯坦福、华盛顿大学）的 Offer 并最终选择去了斯坦福。

一次的成功或许只是巧合，系列的成功则是实力和潜力的证明。

NIPS'16最佳学生论文，2018年修订版

以2016年NIPS最佳论文奖为例，这项工作主要是在讲为什么可以用 non-convex optimization 做Matrix Completion。Matrix Completion常常被应用在推荐系统当中。理论可以分析的算法都比较慢，而实际中使用的算法都基于non-convex optimization, 却没有理论保证和理解。因此就存在一个大的开放性问题：为什么non-convex optimization可以解决这个问题？

马腾宇等人首先在这篇工作中回答了这一问题。而事实上，马腾宇与鬲融、Jason D. Lee三人从开始做这项工作到提交论文，前后只用两个月不到的时间。虽然如此，这却是长久的积累，马腾宇差不多在一年前便意识到这个理解non-convex optimizatio的重要性，并偶尔尝试从不同的角度去解决它，但一直没有大的收获，直到2月份他看到一篇文章中的一个小技巧，突然灵感而至，很快便将这个问题解决了。对于这份经历，马腾宇总结到

“我觉得做科研的困难主要有三个：1）找到一个重要的方向；2）找到一个可以解决的问题；3）同时有足够的技术储备和技术创新。”

COLT'18 最佳论文

2018年，马腾宇与Yuanzhi Li 、Hongyang Zhang三人合作的论文《Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations》发表在COLT上，并获得了最佳论文奖。而这篇论文与NIPS‘16的最佳学生论文类似，从开始做到投稿，前后仍然只用两个月的时间。在这篇主题为“正则化”的工作中，马腾宇他们直接follow了之前的一篇工作，但那先前的工作只能解决一个特殊问题，而马腾宇意识到如果沿着他们的思路做，可能会变得越来越复杂。意识到这一点本身非常重要。他说：

“做科研，很重要的一点是去理解其他技术为什么本质上不可行。很多时候，科研之所以思路比较慢，原因在于你有许多选择，你不知道哪个选择是好的，也不知道哪个选择是坏的。这很糟糕。一旦你知道哪个选择是坏的，剩下可选的好的就不多了。所以做科研，很重要的一步是排除是坏的选择；其次是，要知道它为什么是坏的，这也比较重要，因为你如果不知道它为什么是坏的话，就很难把它变成好的。

一个想法，如果你能知道它行不通的根本原因，一般情况下就不会很难通过针对性地修改这个想法得到一个更好的方案。所以我们这项工作模式上就是：我们发现一个想法没有效果，然后理解了这个想法失败的的原因，修正并提出一个新的想法；如果新的想法还解决不了问题，就找到问题，修正，循环往复，就是这样。”

2018 ACM 博士论文荣誉奖颁奖, Source: princeton news

2018年对29岁的马腾宇来讲是一个丰收年，COLT最佳论文、ACM博士论文荣誉奖、多所顶尖高校发出的橄榄枝……然而，受Sanjeev的影响，马腾宇对于这些荣誉表现的极为淡然。他表示

“其实没有太大的感觉。首先这是大家对我的工作的一个肯定，可能的原因是我的博士论文是比较早的一系列试图理解为什么non-convex optimization 可以解决机器学习的问题的工作；在此之前几乎没有这方面的研究。……但做科研，你的reward（受益或回报）往往是非常滞后的。博士论文是五年工作的总结，包括COLT’18 的最佳论文，其实是我们在2017年做出来的。做科研要考虑长期的reward，而不要考虑短期的reward。”

然而，毋论马腾宇是否淡然，科研早期的荣誉对于一个科学家的成长却是必不可少的，这可以让年轻学者在攀岩科研高峰中充满信心。

而另一方面，“long-term”，正是马腾宇做科学研究的关键词。当谈到他的方法论时，马腾宇说，

“从科研的style来讲，我比较在乎的是long term impact，我的课题选择也会受到这方面的影响。”

在科研的实践当中，关注长期影响力是一个研究者能否成为真正科学家的关键一步。以如何看待失败的尝试为例，关注长期影响力的人会更积极地看待失败，因为从短期来看是失败了，但从长期来看这是有益的，失败了没有关系，如果你能够知道它为什么失败，在很多情况下你会改变它，让它变成一个成功的情况。

马腾宇关于Non-Convex Optimization 的报告（2017）, Source: Allen School Colloquia

马腾宇表示：“在很多情况下，如果我能够真正地知道我为什么失败，很多情况下我都能够把它变成一个成功的情况。不过更多的情况是，我只能理解一点点为什么我会失败，然后从中汲取一点点的经验，但长期积累，我会理解为什么整个过程都不work。这样的话，我就能够摸索出另外一套思路。”

当前人工智能面临诸多困境，马腾宇以十年为期，他认为人工智能的理论基础仍然是一个非常大的困难，我们目前还很难理解算法到底做了什么，因此如何理解算法，如何更好地设计算法成了马腾宇最为关注的问题。正如他的导师Sanjeev，面对这样一个宏大的问题，他试图从各种角度（包括最优化、泛化、正则化等）进行逼近。如何通过理论思考来帮助机器学习，正是马腾宇的“long-term”问题。

他表示，尽管当前的机器学习研究过程中，实验指导往往重于理论思考的指导。但长远来看，在随后的几年中，理论思考的指导价值将越来越凸显。正如在博士初期选择布局无人问津的非凸优化研究一样，马腾宇作为斯坦福的助理教授，现在也在布局机器学习理论的研究，一个更大的布局。

当然，long-term并不意味着“空中楼阁”，十年写一篇文章。为了长期的计划，马腾宇在实验指导vs理论思考中取得一个平衡，把这个long-term 分为了一系列非常小的问题，表现在成果方面便是一个个的topics，一篇篇的论文。目前马腾宇在斯坦福带着 5 名博士生以及数名硕士生，正每年发表十几篇论文的速度一步步迈向这个目标。

延伸阅读：