【经验分享】鹅厂机器学习岗暑期实习面经总结

2020 年 4 月 8 日 AINLP

作者 | 空
学校 | 华南理工大学
研究 | 机器学习
出品 | AI蜗牛车 

个人经历

本人本科双非,华南某985硕士,本硕都是计算机专业。本科玩过一段时间ACM,巨菜(现在想想,不管是考研还是求职,这段经历都为我带来了许多便利)。

有一篇SCI一区的论文,方向比较偏,是智能电网相关的,面试官都不太感兴趣。有一个国际大数据比赛的一等奖和一个国内数据挖掘比赛的冠军。

面试情况

简单介绍一下本人找暑期实习的情况,从2月中旬开始准备,投了字节闪电内推,鹅厂提前批,阿里CBU和企业金融的预面试。字节闪电内推简历被筛,鹅厂拿到了推荐岗的offer,阿里CBU过了一面,企业金融过了二面。拿到鹅厂offer后把其他家的面试都推了,因为想着就算发了offer可能也还是会选鹅厂。

整个实习的过程从开始准备到结束大概就是一个月,这一个月基本上也是边面试边刷面经,补基础,还算十分充实吧233。事后想想,自己的六轮面试都过了,真的是十分幸运。

简历

简历一定要重视!简历的内容决定了你能否被捞,一定程度决定了你面试的时候会被问什么。关于如何编写简历,我觉得有几点建议可以跟大家分享一下:

① 头像完全可以不放,如果要放,请尽量放西装证件照,或者说高P过的照片。给HR和面试官一个比较好的初印象。

② 简历要突出重点。学历的地方要写清楚拿过什么奖学金,拿了几次,绩点排名多少,论文的部分要把期刊/会议的级别写显眼一些。这些都是HR比较关注的。比赛建议按照难点-方案这样子的格式去写,避免写一大堆方案,面试官抓不到感兴趣的点。

③ 不太熟的技术不要写在简历上面。面试的时候面试官可能会问你简历上涉及的东西,问了后发现你一知半解会很降分。个人觉得,一个知识面不宽但是对相关的知识都比较熟悉的印象远比什么都一知半解好。

④ 博客,github如果有比较亮眼的成果可以写在简历上,可以自我介绍时讲,HR会比较感兴趣。

⑤ 简历尽可能简洁,不重要的奖项(或者说跟你最好的奖项相比比较弱)可以去掉,只写出你最亮眼的地方。比如一个rank不高的比赛,写到简历上可能是个扣分项。当然,如果没有更好的奖项了,可以写上去表明自己做过这方面的工作。

面试

我们在牛客上可以看到很多人的面经,同样一个岗位,有的人很难,有的人很轻松。我认为的原因有:

① 简历。经历比较丰富的人,一般面试上来会被问比较亮眼的经历,一轮面试的一半左右时间会花在这上面,而且因为是自己做过的工作,被问时基本不会有什么压力。所以整体的面试难度会降低。

② 话题的引导。这个算是我自己几次面试中领悟到的,我们在面试时要有意讲话题引导到自己擅长的领域,比如我一般会有意避开NLP,CV,让面试官问我机器学习相关的知识。所以面试官经常会说我“对机器学习比较熟悉,不过某些方面可以再加强一下”,这个印象其实我觉得还好,反正把握好自己擅长的地方,积极避开不擅长的领域相当重要。

③ 运气。这个无可厚非,无法避免。有的部门面试就是很难,有的部门面试就是比较水,或者说这个部门认为你的经历比较对口,那么面试难度也会降低不少。

在等待面试的期间,应该积极去牛客网刷对应的面经,把可能出现的问题抄下来,一个个去巩固。面试问的题目在牛客面经上基本都是高频问题。

可能会有用的事项

① 分享,交流。我本人和熟人相处时会比较放得开。因此,我会和关系比较好的朋友/同学分享,讨论每一次的面试录音。找出一些不足,一些可以改进的地方。另外,面试完在牛客网,QQ群分享面经也是一个不错的行为,受了别人帮助,也要回报。

② 多关注招聘信息。招牌期间会有很多群,建议多加,了解一些全面的情况。

③ 不要一开始就面想去的公司,理由大家都懂。可以多投一些二线公司,或者不想去的一线公司,攒攒面经。

④ 像阿里的预面试,腾讯的提前批,这种机会不要错过。可以积攒丰富的面试经验。

准备工作

本人只针对机器学习/数据挖掘岗提出建议,CV,NLP岗可能情况不一样哈。机器学习/数据挖掘主要需要准备的内容包括:

① ML相关的知识:这部分知识我下面会列出一些比较高频的问题。需要特别注意GBDT,xgb和lgb的区别,建议实际使用过并看过原始论文。需要熟练手撸的简单算法有LR, NB, Kmeans。对于LR和树模型这种工程使用较多的,需要知道跟并行相关的一些知识。比如LR如何处理千万级别的数据样本,xgb如何并行等。

② 数学知识:这一块主要是高数,线代,概率论,凸优化。高数上(加上无穷级数),线代,概率论需要熟练掌握,凸优化重点掌握一维搜索方法,一阶/二阶优化方法,KKT条件,对偶问题,线性规划,二次规划。

③ 基础算法。这部分的重要性不用多说,刷leetcode。剑指offer的题目一定要达到秒杀级别。基本的都会了之后,算法岗重点强化DP,记忆化搜索这两方面。对于笔试,建议多去牛客刷往年的真题,注意笔试的题目难度往往远高于面试。(当然不会要求全部AC)

④ 场景问题:对于机器学习/数据挖掘岗,现在大多数的公司业务都是反欺诈(异常检测)/推荐系统,对于这两方面的基本内容和传统方法要能讲出来一些东西。这也是必问的问题。

⑤ 智力题:其实这个应该和算法题归为一部分,智力题考来考去其实就这么几道——疯狗,毒水,海盗分金币,两根蜡烛,三门问题等。

⑥ DL相关知识:就算是机器学习岗,也需要了解一些深度学习的基本知识,常用的模型,如何调参等。最好了解一个框架(建议tensorflow或pytorch)。

⑦ 语言方面:建议熟悉C++ 和 python至少其一。

个人整理的一些高频问题

  1. lightgbm, xgboost RF和GBDT的异同(这个问题属于必问问题,对于ID3,C4.5,CART也要了解,对于xgb的算法原理要充分理解,比如损失函数的推导过程,为什么要使用二阶泰勒展开。最好有一些调参经验)
  2. svm损失函数推导
  3. 朴素贝叶斯公式推导与实现
  4. 处理不平衡常用方法
  5. 卷积层相比FC层有哪些优势?
  6. 非线性分类算法有哪些
  7. 如何判断一个算法是线性的还是非线性的?
  8. stacking/boosting/bagging的区别
  9. 手动实现堆排序
  10. 求AUC
  11. L1和L2的区别
  12. 实现快排
  13. LR的实现,优点,如何并行,特征有共线性会怎么样?14.pca和lda
  14. 常见激活函数的优缺点 16.从方差和偏差的角度比较bagging和boosting
  15. 经验风险、期望风险、结构风险
  16. 分层采样和蓄水池采样,O(N)的洗牌算法
  17. SVM与LR的区别
  18. 一阶优化器,二阶优化器
  19. 手写kmeans
  20. BN/LN/WN的区别
  21. 实际场景下做softmax容易出现一些问题,怎么解决
  22. 扔鸡蛋问题(了解到O(kn)的做法即可)
  23. 进程和线程的区别
  24. Python/C++多线程,多进程如何使用
  25. Python迭代器,装饰器
  26. Bootstrap抽样
  27. 特征选择方法
  28. 野指针是什么意思
  29. 64匹马,八个赛道,找出最快的四匹,最坏情况下最少要比多少次(更常见的是25匹马,5个赛道找出最快的3匹)。
  30. 12个小球,其中有一个与其他的重量不一样,给你一个天平,最坏情况下最少称多少次可以找出重量不同的小球。
  31. 1000杯水中有一瓶是毒药,小老鼠喝一滴一小时就会死,给你10只小老鼠,在一小时内找出这瓶水 。
  32. P-R曲线和ROC曲线的区别
  33. 什么是凸问题?
  34. 常见的凸优化方法?
  35. CNN/RNN/LSTM的原理
  36. 从方差,偏差,噪声的角度解释泛化误差
  37. 特征工程相关。比如如何处理类别特征?onehot,tfidf会出现什么问题之类。
  38. 词嵌入embedding相关知识(主要是word2vector)
  39. 梯度爆炸/梯度消失
  40. 池化层,卷积层的作用
  41. dropout(训练和测试阶段分别如何处理)
  42. MLE,MAP和贝叶斯估计的区别
  43. DNN反向传播的推导
  44. LR为什么用交叉熵而不是MSE?
  45. 为什么LR权重可以全部初始化为0,NN不行
  46. 常见的几个聚类算法
  47. 异常检测/推荐基本方法(这个视部门业务而定)
  48. 判别式模型和生成式模型

相关书籍

本人看书不多,就推几本比较热门的书籍吧。

① 西瓜书,南瓜书,统计学习基础。适合拿来刷机器学习基础

② 动手学深度学习,花书。适合拿来刷深度学习基础。特别是前者,有pytorch版本的代码实现。

③ 深入理解XGBOOST。最近很火的一本书,看了一下质量相当不错。

④ 剑指offer。这本不买也行,leetcode和牛客有对应题目

⑤ 程序员面试宝典。题目较多,较全,较难。在掌握了剑指offer和基本算法内容之后,可以作为进阶食用。

后话

算法岗虽竞争较大,但手里有一些筹码,准备充分的话其实也还好。有时间的情况下,建议丰富竞赛,实习经历。论文也是硬通货,但是难度确实更大。当然有时候也很看运气,但是运气毕竟是不可控的。希望这篇文章可以帮到你早日拿到offer~

推荐阅读

AINLP年度阅读收藏清单

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

From Word Embeddings To Document Distances 阅读笔记

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

这门斯坦福大学自然语言处理经典入门课,我放到B站了

可解释性论文阅读笔记1-Tree Regularization

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


登录查看更多
0

相关内容

面试是招聘、招生等的一个常见程序,指通过面谈来了解并评估应试者,来确定是否符合要求。
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
162+阅读 · 2020年5月14日
【资源】100+本免费数据科学书
专知会员服务
108+阅读 · 2020年3月17日
机器学习速查手册,135页pdf
专知会员服务
342+阅读 · 2020年3月15日
台湾大学林轩田机器学习书籍《从数据中学习》,216页pdf
 第八届中国科技大学《计算机图形学》暑期课程课件
专知会员服务
58+阅读 · 2020年3月4日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
214+阅读 · 2020年2月21日
爱奇艺深度学习算法实习生面经
算法与数据结构
9+阅读 · 2019年5月28日
我在美团的这两年,想和你分享
大数据技术
3+阅读 · 2019年4月22日
SFFAI分享 | 张士峰:经验分享之我的科研历程【附PPT与视频资料】
人工智能前沿讲习班
85+阅读 · 2019年3月23日
2018年SLAM、三维视觉方向求职经验分享
计算机视觉life
17+阅读 · 2019年2月25日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
AI笔试面试题库-Python题目解析1
七月在线实验室
5+阅读 · 2018年6月27日
Domain Representation for Knowledge Graph Embedding
Arxiv
14+阅读 · 2019年9月11日
Arxiv
6+阅读 · 2018年8月27日
VIP会员
相关资讯
爱奇艺深度学习算法实习生面经
算法与数据结构
9+阅读 · 2019年5月28日
我在美团的这两年,想和你分享
大数据技术
3+阅读 · 2019年4月22日
SFFAI分享 | 张士峰:经验分享之我的科研历程【附PPT与视频资料】
人工智能前沿讲习班
85+阅读 · 2019年3月23日
2018年SLAM、三维视觉方向求职经验分享
计算机视觉life
17+阅读 · 2019年2月25日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
AI笔试面试题库-Python题目解析1
七月在线实验室
5+阅读 · 2018年6月27日
Top
微信扫码咨询专知VIP会员