阿里机器学习算法面经(已offer)

2020 年 4 月 6 日 AINLP

作者 | Ivyoake 
整理 | NewBeeNLP

面试锦囊之面经分享系列,持续更新中 

可以后台回复"面试"加入交流讨论组

今天上午已收到意向书,岗位算法工程师-机器学习,地点杭州。

一面(简历面 半小时)

当时在过马路时收到了电话,站在人行道上面试了半小时..

  • 询问基本情况(研究方向及实习)
  • 就实习阶段所做的超分辨率算法工作进行了详细的询问:数据如何生成,从概率的角度解释网络为何能够学到LR和SR的映射关系,如何搭建和训练网络,如何解决模型落地问题
  • 了解到答主在做超分时遇到的问题后,对业界前沿的技术做了相关询问,用了哪些GAN模型,GAN模型的loss函数如何设计,为什么这么设计
  • 询问答主为什么要从深度学习方向转到机器学习方向,以及约定了两天后的详细面试;

二面(视频面 四十分钟)

  • 介绍一个机器学习项目后就项目的pipeline和相关知识点进行了询问
  • 介绍随机森林和GBDT的区别,为什么Bagging降方差,Boosting降偏差
  • 介绍XGB对GBDT的提升,LGB对XGB的提升,以及既然使用了LGB为什么还要使用XGB
  • 介绍stacking的模型融合方式,以及模型融合为什么有效
  • 编程题:找到一个无序数组里面连续的最长整数数组长度。顺带考察了基数排序和快速排序

三面(P9交叉面 一小时)

  • 了解答主的两段实习经历,分别承担怎样的角色,具体做什么,简单考察了如何解决实际问题
  • 就项目中数据处理方式做了详细的询问,生成的多张数据集如何使用,缺失值的处理需要考察到哪些问题,均值填充是否科学等
  • 特征工程中具体衍生出来的特征进行了详细的询问,为什么要生成这样的特征,依据是什么,为什么要使用PCA进行降维,如何存在多个特征高度共线会有什么问题
  • 为什么要大量使用树模型,有什么优势
  • XGB如何处理缺失值,LGB的差加速和直方图算法的底层代码是否有过了解
  • 开放题:双十一时向用户发放优惠券,希望在成本一定的前提下,使得盈利最大化,该如何建模发放给用户?用户无法做AB测试,该怎样划定正负样本?
  • 数学题:长度为1的线段,随机地取两点A和B,求AB长度的概率密度函数

四面(四十分钟):

  • 是否做过机器学习算法上的性能优化,介绍了项目中超分算法优化的内容
  • 为什么要对连续型数值进行离散化,这样做有什么优势
  • stacking模型最后一层用于二分类的LR是用离散型的数据还是连续型的数据,有什么区别
  • 详细解释了弱模型特征的生成方法和思考角度

五面(主管面 现场面 一小时五十分钟):

四面当晚收到去现场面试的通知,经历了春招和秋招以来时间最久和最紧张的一场面试,所幸面试官人很好,缓和了一些

  • 详细介绍了第一段实习的个性化推荐的项目,以及团队内的分工合作,自己负责什么领域。生成的模型方案如何评价和测试,处理样本时是否遇到样本不均衡的问题,如何解决
  • 分别解释分层采样和蓄水池采样
  • 就第二段实习经历询问了GAN模型和多帧模型以及loss设计
  • 就机器学习项目的pipeline进行了详细的介绍,询问的问题部分重复,在此不述
  • 开放题:就之前的面试记录来看,想继续询问优惠券发放的问题,你是否有了更深入的了解和更好的思路
  • 编程题:有log日志,每行有两列(用户ID,访问的商品ID),若两个用户均有访问一个商品ID的记录,则两个用户关系指数加一,求所有用户对中关系指数最大的TopK;如果内存中无法存入全部数据,该如何解决。能否使用hadoop的方式解决,原理和思路?能否使用合理的切片方式,使得分布式的机子上的排序结果汇总后就是最终结果?
  • 思维题:有一座桥,A通过需要25分钟,B通过需要20分钟,C通过需要10分钟,D通过需要5分钟,一个桥同时只能走两人,且快的人需要等慢的人到达才能一起到达。走桥时必须要有手电筒才能经过,且手电筒只有一个,问如何在60分钟内使得四人均通过

HR面(三十分钟):

现场面结束后主管告诉我本轮已经是最后一场技术面,如何有后续面试就是HR面,在返程地铁上就收到了第二天的电话面试通知,非常高兴

  • 简单自我介绍
  • 讲述自己的特点和所擅长做的事
  • 就两段实习经历讲讲自己对于两家公司的看法
  • 讲讲自己对于一个公司的期望
  • 认为自己在工作中最有优势的事情是什么
  • 自己希望从事怎样方向的工作,是科研型的还是工程型的
  • 自己的兴趣爱好是什么
  • 有什么想问的

- END -


关于SVM,面试官们都怎么问 2020-03-27
算法面经分享 | 双非研究生斩获大厂offer 2020-03-19
算法面经大乱斗Plus 2020-03-15


推荐阅读

AINLP年度阅读收藏清单

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

From Word Embeddings To Document Distances 阅读笔记

模型压缩实践系列之——bert-of-theseus,一个非常亲民的bert压缩方法

这门斯坦福大学自然语言处理经典入门课,我放到B站了

可解释性论文阅读笔记1-Tree Regularization

征稿启示 | 稿费+GPU算力+星球嘉宾一个都不少

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。



登录查看更多
0

相关内容

专知会员服务
41+阅读 · 2020年7月29日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
393+阅读 · 2020年6月8日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
197+阅读 · 2020年2月11日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
2019腾讯广告算法大赛方案分享(冠军)
大数据技术
12+阅读 · 2019年8月26日
今日头条广告算法面经!
算法与数据结构
25+阅读 · 2019年5月29日
爱奇艺深度学习算法实习生面经
算法与数据结构
9+阅读 · 2019年5月28日
备战AI求职季 | 100道机器学习面试题(下)
七月在线实验室
9+阅读 · 2019年3月22日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
Arxiv
5+阅读 · 2019年10月31日
Arxiv
4+阅读 · 2019年1月14日
Arxiv
8+阅读 · 2018年5月15日
VIP会员
相关VIP内容
专知会员服务
41+阅读 · 2020年7月29日
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
393+阅读 · 2020年6月8日
【新书】Pro 机器学习算法Python实现,379页pdf
专知会员服务
197+阅读 · 2020年2月11日
谷歌机器学习速成课程中文版pdf
专知会员服务
143+阅读 · 2019年12月4日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
相关资讯
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
2019腾讯广告算法大赛方案分享(冠军)
大数据技术
12+阅读 · 2019年8月26日
今日头条广告算法面经!
算法与数据结构
25+阅读 · 2019年5月29日
爱奇艺深度学习算法实习生面经
算法与数据结构
9+阅读 · 2019年5月28日
备战AI求职季 | 100道机器学习面试题(下)
七月在线实验室
9+阅读 · 2019年3月22日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
干货 | 一文总结机器学习类面试问题与思路
THU数据派
3+阅读 · 2018年7月15日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
Top
微信扫码咨询专知VIP会员