全面梳理丨吴恩达给AI领域学生的发展建议

会员服务 ·

全面梳理丨吴恩达给AI领域学生的发展建议

2022 年 1 月 2 日 学术头条

在 AI 领域，吴恩达几乎无人不知。这位著名的 AI 研究者，也是一名杰出的 AI 教育家。

当他还在美国斯坦福大学任教时，曾在阅读文献和职业规划上给过学生一些非常有价值的建议，以下为我们对这些建议进行系统整理后的内容，希望能帮到有需要的读者。

关于如何阅读文献

深度学习领域的发展真的很快，以至于即使你已十分熟悉深度学习的基础内容，还是很难做到在理论和实践知识上都与行业与时俱进，因此，能否有效阅读文献对开发和研究者们来说可谓是尤其重要，我可以给你们一些参考建议。

通常我们都会觉得“学会怎么读论文”是一个潜移默化的过程，但我希望这次分享内容能帮你们加速这一过程。

现在，假设你想通过阅读文献来增近对某一特定领域的了解，比如自然语言处理，我会采取的策略是先汇总一份需要阅读的论文清单，这些论文的来源可以是 arXiv，互联网，Medium 博文，或者 GitHub 上的一些帖子。

但不管你的学习资源来自哪里，在你汇总出一份文献清单后，我推荐“并行+扩充阅读法”，而非按清单从上往下，一篇篇从头读到尾。

首先，画一个表格，表格的纵轴上列出你待读清单上的论文，横轴上是一篇论文的读完百分比（从百分之零到百分之百），然后对所有的论文进行速读，大概掌握每篇论文要讲什么，将每篇论文的阅读进度都完成到约百分之十。

然后在此基础上，如果我们能判断出清单上有那种“意义不大”的论文，即使有许多论文都引用了它，也不要害怕说自己判断错了，要大胆相信自己的判断，将它移出清单，而除此之外，我们通常也能在这一过程中判断出，哪些论文是那些具有关键信息的文献，而一旦识别出了这些文献，我们便要花更多的时间和精力去细读它们。

如此一来，我们便有可能在这一细读的过程中又发掘出一些新的文献，然后在发觉到“要理解当下细读文献的内容，需要先读新发掘出的文献”时，我们就要先去阅读那篇新发掘出的更为基础的文献，然后再在阅读这篇新发掘出的文献时重复刚才的过程，直到找到一篇能直接读到底的文献，将它读完后，再回去将之前引出这篇“底部文献”的那些文献按顺序一一读完。

而就论文的阅读数量来说，一般需要读 15 到 20 篇论文，才能对一个细枝领域有一些基本的了解，并也只有是在这一基础上，才能进行一些真正意义上的实践，在有理解的基础上实现一些算法。

通常，在读了 50 到 100 篇论文后，能对想要了解的某一细枝领域有一个相对较好的了解。而如果只是读 5 到 20 篇文献，我们或许能实现一些算法，但没法跟上该领域的前沿进展。

个人来说，我在阅读一篇论文时，通常会将阅读的过程分为几步。

第一步是读论文的标题、摘要和图表。

图表们在深度学习领域的论文中尤为重要，很多论文都会用图表来概括整篇论文所讲的内容。取决于具体的需要，我或许还会略读一下论文的方法和实验部分，然后通过以上所有，我就能在不细读整篇论文的情况下，较好地了解论文是要讲什么。

在第一步的基础上，我会开始第二步，细读论文的 Introduction（介绍）和结论，并细读这两个部分中所使用到的图表。

而对于论文中的 Related Work（相关研究）部分，很多人会在第一次阅读时略过，原因是如果在开始阅读前对论文所涉及的领域了解不深，可能根本读不懂这里讲的是什么，但如果我们决定要阅读这一部分，需要注意这一部分内容客观性，很多作者在书写这一部分时，都是选那些能支持论文内容的材料写进来，作为“说服审稿人发表这篇论文”之努力的一部分，所以这里要有这个意识，注意这个部分的客观性。

在进行完第二步后，第三步的内容非常简单，就是先略过理论的数学部分来读论文，然后我们便可以进行下一步了。

第四步，通读全文，但要在阅读过程中略过讲不通的部分，原因是实际发表论文时，都会尝试将论文包装成一种前沿研究，而有时我们其实并不知道所写的论文里哪些重要，哪些可能其实不重要。

因此，在很多被大量引用的论文中，大家在后来都是发现说这些论文的部分内容十分有用，而有的部分则是根本不重要，但重点是，作者在写论文的时候是没法知道这些的，通常没法在写论文时就知道所写的内容里哪些比较重要，哪些不重要。

比如 Yann LeCun 的 LeNet 系列论文，论文中有的内容成为了卷积神经网络发展的基石，有的内容则是一些不太相干的东西，比如 Transducers 等概念，这些在现在很少有人会用。

所以，当你在阅读一篇论文时觉得“有的东西讲不通，或者根本没什么用”时，不用怀疑自己，跳过就行了。当然，如果你想做关于某一方面的深度研究，那当我没说。

一般来说，我个人按以上方法读完一篇论文需要大概 30 分钟，但我在机器学习领域算是比较专业了，掌握的信息很多，所以能在大概半小时内读完，你们可以按照自己的速度来，不用参照我的时间。

关于文献的来源

另外一个我经常会被问到的，关于阅读文献的问题。

一般去哪里搜集需要阅读的文献？关于这一点，我想说的是，上网检索是非常重要的。关于一个话题的相关信息，无论是论文还是技术博文，你都能通过网上检索找到。

此外，很多人都想做到说，自己掌握的信息能否“实时”与深度学习这一领域的前沿发展接轨，关于这一点，我觉得T特现在已经成了科研人员们用于发现新事物的一个好地方，除此以外，在 Reddit 上关注机器学习话题也会有所帮助。当然，关注领域内的会议作用也很大，比如 NIPS、ICM L 和 ICLR。

关于深度阅读文献

关于阅读文献我还想再补充两点，一是，很多论文或其它资料里都有数学内容，有时这些数学内容里的推倒可能非常难懂，而如果你想确保自己有读懂这些内容，我的建议是先通读一遍，然后看自己能不能从论文中给出的推倒的起点，推出后面的那些算式，如果你能成功完成推倒的话，那你绝对是已经完全读懂了这篇论文。

而就我个人来说，由于我在读博士时就经常这么做，我发现这种做法后来除了能帮我读懂别人的研究，还有锻炼发现新算法的能力。

当然，这么做会需要你花费大量的时间，要不要这么做还是取决于你的具体需求，比如你是否真的想要完全读懂一篇论文。

关于如何读懂代码，与数学部分类似，我的建议是，如果你想完全搞懂这篇论文所用的代码，就尝试在看完代码以后，重新实现一遍论文所用的代码，如果能成功实现的话，便说明你已经完全搞懂论文所用的代码了。

关于文献阅读习惯的长期建议

在长期上，我建议常读论文，而不是采取那种突击式读论文的方法，比如可以每周读一两篇，而不是在感恩节假期时突击读它个 50 篇然后就再也不读了。

从教育学和脑科学上来说，这么做也能帮我们养成一个良好的习惯。

关于职业发展

之前很多学生都有问我要一些关于职业发展的建议，这也确实是一个很重要的问题，比如就我们所知，现在机器学习所涉及的领域真的是太广了，如何才能知道自己究竟想做什么呢？

首先，我需要做一个假设，就是大多数人，都只想在职业发展上涉及一到两个领域。

无论你是想留在大学里，还是去公司里工作，我都希望你们所从事的工作是重要的，或者说，是有意义的，然后在此基础上，我想谈两个与职业发展有关的问题，一是要怎么拿到一个职位（Phd，教职或是公司职位），二是我们要如何着眼于长期规划来选择职位。

1、关于找工作，招聘官们在寻找什么样的人？

首先，很多招聘官们都会青睐那些有专业技能的人，比如在机器学习领域，很多面试官会问你，你会不会用这种方法或是那种方法，然后再细问一些关于特定方法的问题，比如，在使用 batch gradient descent 这一方法时，调整 mean batch size 会有什么样的影响等等。然后，除了你在机器学习上的知识，很多面试官也会关注你的编程能力。

此外，他们还会关注“你之前做过哪些有意义的工作”，原因是一个人有很棒的理论知识基础，并不能说明这个人就能很好的使用这些理论，所以，如果能有一些理论实践的话将是很好的。

许多面试官也会看重面试者的持续学习能力。

很多工作并不需要你是个“全通”，你只需在对机器学习有一个整体的了解上，能做到相对精通那份工作会涉及到的领域的内容就行了。

关于这个有很多衡量标准，有时面试官可能会想要了解你此前在有关领域内的工作，或者是你此前在有关领域内产出的一些开源代码，这些信息能帮助面试官判断“你是否能就一个问题给出有效的解决方案”。

2、如何选择一份工作

如果你的目标是想做到持续学习，和厉害的人从事有意义的工作是很重要的，环境的熏陶有时还是能带来蛮大影响的。

所以，在选择自己想要去哪里工作时，要注意那里的团队怎么样，是否是自己想要的一个环境。

还有就是，你是否觉得那份工作的上级与你合得来。

最后就是公司品牌。比起品牌，你更需要关注的是你是否能与可能的上司合得来，是否能与团队合得来，是否喜欢那里的工作环境，这一点对于很多招聘官来说也是一样的，招聘和面试官们比起你之前在哪工作过，会更关注你是个什么样的人。

另外，如果一份工作在你收到 offer 后拒绝给你透露你将要进行的项目内容、团队和上级信息，要提高警惕。因为这种情况下，如果没有特殊原因，意味着将这些信息透露给你将会降低这份工作对你的吸引力。

最后，还是之前谈到的，可能是最重要的一个建议，在选择工作时，选择那些你觉得有意义的工作，并在工作中积极学习你能学到的东西。

我个人觉得，未来，AI 并不是只有在这些科技公司里才能用的上，而是在很多被视作“传统行业”的领域里都能大显身手，所以在职业选择上，我建议不用把自己限制在科技行业里。