田渊栋：博士五年总结

会员服务 ·

田渊栋：博士五年总结

2019 年 1 月 19 日 算法与数学之美

作者：田渊栋http://yuandong-tian.com/five_year_summary_of_PhD.pdf个人主页：http://yuandong-tian.com/

前言

田渊栋博士目前担任Facebook人工智能研究院研究员/研究经理

原文共分为六节，考虑若全文po出，篇幅较长。为了更好的阅读体验，故将分成六篇推文进行介绍。第一篇详见：田渊栋：博士五年总结（一）

博士五年总结（二）

回到刚才的话题，自己刚入cmu的时候，因为种种原因没有选到理想的导师，不知如何是好，就向师兄征询意见。师兄劝我说：“其实这些都不重要，重要的是你可以从他那里学到什么，我认为他人不错，另外演讲和写作技能非常好。”

事实证明师兄说的话是对的。选导师，他做什么研究并不是最重要的，比这更重要的，是人品及交流和表达能力。我导师人品相当不错，对学生既严格又负责，也不拖毕业的时间。我从他那里学到最多的，其一是演讲，其二是写作。

先来谈谈写作。

以我五年的经验来看，其实中国人写作的最大瓶颈并不是英语能力，而是组织。论文的英语水平充其量是高中水准，多看几篇就大致可以掌握词汇和句型，更何况很多论文都不是以英语为第一母语的研究者们写的，照样拿最优论文奖，照样在学术圈产生极大影响力。

但在组织上，我们的论文确实问题多多。我就犯过很多错误。其一是挤牙膏，通过堆砌句子来达成长度要求，这个可能和我们从小要求文章有字数下限有关，结果就造成文章空洞，许多句子许多段落翻来覆去同一个意思，让人倒胃口。其二是把文章写成技术报告，先做啥，再做啥，最后做啥，实验结果是啥，没了。至于为什么这样做，原因是什么，是什么激发了这样的思考，这样的方法对什么样的数据会有效，有什么局限，全都不知道。（潜台词是：是老板让我这样做的，我只想毕业，有问题别来找我……）论文是要引人深思的，要给人启发的，要让人受教的，要让读者读完后，觉得这篇文章公正地评价了前人的工作，明白这篇文章的创新意义所在，并且同意作者的出发点，认为这是一个很有前途的方向才行。

本质上来说，产生这两个问题的原因是懒得思考。论点挖不深，导致觉得没啥好写只好挤牙膏；方法想不透，于是便罗列若干步骤草草了事。其实只要稍微想下，就能补上很多东西。

举个例子，写目标函数是什么，如何用梯度下降优化，数学上就两个公式，但是段落里可以说明如何选初始点，初始点在这个具体应用中的意义何在，如何取步长，为何这样选，收敛速度通常多快，哪里可以加速，哪里可以并行化再加GPU，等等，这样内容就丰富多了。又比如，一个算法的若干步骤，本来是毫无意义的流程图，但在介绍它之前做些解释，阐明设计的一些基本原则，然后在解释每步时充分使用这些原则，那读来就会觉得容易接受得多。

克服了这两点，做到开局有理有据，正文言之有物，实验让人信服，那这篇文章基本上可以中稿了。接下来，就可以进入高级模式了。

首先，立意要高远。一篇文章规矩着写，说“我们加了新特征，因为新特征针对数据集的某些特性建模，实验效果更好”，虽然基本可被录用，但一般不会出彩；如果说“我们建立了新的框架，统一了以前的诸多方法，在这个框架下，算法能自动分析数据加入新特征，实验效果更好”，那这篇就有戏。

为什么呢？工业界看重效果，因为效果和经济利益直接挂钩；而学术界是想要为一个领域找一个简洁明了的理论，是要仰望星空，问天几何的——因此每一篇好文章，都必须建造出自己的一套世界出来，给出自己的世界观和方法论，在这个宏大的图景下，给前人的工作标好地位，给自己的工作定下基调，然后拿着这张画好的地图，去解决实际问题。

而所谓的博士研究和博士论文，则是在一套统一自洽的世界观下，含有两至三篇或者更多的文章，以证明这套世界观的合理性。

这听起来像是忽悠的游戏。因为像计算机视觉这种实用的领域，哪有那么多理论可挖。是的，在一定程度上确实如此。但是建筑世界观本身，会促使研究者对已有的工作进行排列，得到新的启发，看到新的联系，因此仍然是对研究本身有益的。有些表面上的联系可能被证明是偶然，但有些则会揭示本质，促进人们深化认识，为将来的突破性进展作准备。另一方面，功利地来说，有一个宏大的世界观有利于一位博士生发大量文章，早点毕业:-)

其次，故事要流畅。我老板说过，一篇好的文章，就如同带着读者在一个花园里行走，路面平坦舒适，左边有山，右边有水，引人入胜，读者漫步欣赏美景，走过亭台楼阁，一点不费劲，一下子就逛完所有还意犹未尽。迄今为止，我对这种抽象的诗一般的表达还不能完全理解，但是既然他声称读完了所有哈利波特的同人小说，而我只不过写过一部二十五万字的小长篇，我想我还是宁愿相信他比较好-_-。

在大的方面来说，一篇文章从开篇开始，就要让人有所期待，各种背景知识交代自然，详略得当，指出前人工作各有缺陷，然后自身的贡献娓娓道来，最后各种证据证明自己所言得当；或是先摆出正反证据，引人思索，指出前人各种问题，再列出自己方案，教人拍案叫绝。细节上，全篇重要的论点要适当重复，每次出现都要和上下文语境相符，无聊冗长的段落适当精简，但必要的实验步骤需要交代；每一段都要有总起有概括，像是花园的指路牌，让读者不至于晕头转向；不设弯路，反复推敲逻辑关系，能用一层逻辑说清的绝不用两层，能用简单故事说明白的不用复杂公式，就算有复杂公式也放进附录里；繁简要有计划，细节要略写以免让人费解，主干则要用重笔让人印象深刻；插图要不言自明，要出现在该出现的地方，能恰当地作成段落注解；语句不能太长，避免从句套从句，长短结合比较好，等等。

这里所有的要求，都是为了读者着想。每条单独做起来都相对容易，但要合在一起就难，需要充分的思考和不停地修改。每过一段时间，脑中就会浮现出更好的组织方式，而这种新的组织方式，又反过来会启发出新的理解，推进整个研究的进展。接着，各部分贡献大小又有变化，详略又会调整，文章又得修改，如此往复。渐渐地，才会从斧凿拼接模样的文章，变成一气呵成的神作。到这个时候，写作和研究浑然一体，写作促进研究，研究促进写作，才终于算是步入专家级别了。

还记得在今年 ICCV 最后期限的前一个晚上，老板看了看我要在二十四小时之内要投稿的文章，说了一句：“组织还是有问题，要不我们不用投了。”我当时就惊了，当然不能接受这个可怕的事实，于是回去连夜修改，第二天早晨总算让他满意，后来这篇文章被评为 very well written，并且拿了ORAL。我不得不承认他有想推迟我毕业的小小私心，不过他对写作的执着，可见一斑，他说过自己的第一篇投稿改了三个月，原稿他一直珍藏，对比第一稿和最后一稿，差距有如天壤。

我想正是因为如此，才能有他的这些锦绣文章。

————

来源：深蓝QHi

编辑 ∑ Gemini

微信公众号“算法数学之美”，由算法与数学之美团队打造的另一个公众号，欢迎大家扫码关注！