©作者 | 顾逸
研究方向 | NER、情感分析
每一轮面试中,如果有算法题,最好能准确做出来,那样大概率可以进入下一轮面试;
如果完全没思路,那基本属于凉凉;如果思路正确,写得不是特别对,那还有百分之七十左右的概率进入下一轮;
面试过程中,遇到比较困难的题目,如果没有思路,可以先写一版复杂度较高的方法,然后再问下面试官是否可以给些提示;
最差的情况,实在不会,询问面试官是否可以换一个题目(主要看面试官肯不肯给换),如果换题目了,那就必须得做出来,不然凉凉,这个我操作过。
另,题目大部分以 leetcode 中等难度为主,而且原题的比例也比较高,或者就是原题的稍微变形;极少数 hard 题目,我碰到过三次,一次美团,一次虾皮,一次字节
在这里给那些和我一样刷题有困难的小伙伴们推荐一个不错的刷题教程:
https://scholar.google.com/citations?user=iOgYZ_kAAAAJ&hl=zh-CN
https://dblp.org/pid/222/7951.html
<小红书>
上海小红书1面
项目提问:
1、远程监督会造成出错误标注,你是怎么解决的?比如有一个词叫做松下,句子是松下问童子
2、为什么语言模型的PPL分可以作为衡量句子的质量好坏的标准?你PPL分的归一化是怎么计算的?
3、其他就是问我远程监督NER中提出的两个优化点,问我motivation以及这样设计算法的意义(主要因为写了一篇论文,虽然没中)
基础知识
1、softmax的导数的值域
2、决策树是如何选择特征的?
3、GBDT的基学习器之间是否可以并行?
4、一个不均匀的硬币,怎么抛掷才能公平
5、没有考算法题目
上海小红书2面
项目相关问题
二面面试官的提问比较aggressive,就是一直说我这样做没有意义,真的要气死,差点和他怼起来…
基础知识
1、Bert中的位置编码是绝对的还是相对的
2、CNN中的1x1卷积的作用
3、LSTM中的记忆门、遗忘门的作用
4、防止LSTM梯度消失(or爆炸),做了什么优化?->GRU相关知识,LSTM与GRU中门机制的区别
5、是否BERT全面优于LSTM等模型
算法题:实现类似消消乐功能 删除连续出现大于等于3次对的数字
输入[1,2,3,3,3,4,4,4,4,5] 输出 [1,2,5]
加面(二面后直接hr面了): 上海小红书3面
简单问了项目情况,介绍了他们那边的业务场景,基本属于闲聊模式吧
-----------------------------------------------------------------------
<携程>
上海携程(无笔试题,因为面试的推荐岗位,大都是机器学习的知识点,仅一轮技术面,比较简单吧,可能是看中了我的背景)
1、问我项目中的规则引擎是怎么做的(也许他们内部也写了很多规则,所以才对我的规则引擎比较感兴趣吧,手动捂脸)
2、GBDT中的一些细节,决策树中的特征数如何选择的;
3、原问题大概是GBDT中样本你们是如何采样(没听明白问题,然后面试官举了一个例子,我说你想说的是不是交叉验证啊,他说是的),交叉验证的优缺点,缺点是样本太少的情况下,仍然无法避免过拟合
4、因为回到了GDBT中可以通过boosting的方式拟合残差使得误差变小,面试官问我,如何解决方差的问题,当时没回答上来…
-----------------------------------------------------------------------
<新浪微博>
杭州新浪微博(一面)
1、你是否了解其他跨语言预训练模型?mBERT与XLM的区别,你为什么选择XLM?
2、CRF的损失函数是怎么计算的,不用写公式,大致说一下
算法题:
链表的排序(归并)
杭州新浪微博(二面)
1、问我从comparable data 中挖掘双语术语的论文里面的细节,讨论我论文中的问题
2、远程监督NER产生的不完整标注如何解决,我详细说了一下简历中提到的两种优化方式,面试官问我具体代码是怎么实现的,给他口述了一下
3、问我GPT-2的原理(因为项目中用到了)
算法题(2道,简单题)
a. 写multi head self-attention伪代码
b. 写一个矩阵转置的实现 例如 3*2的矩阵转成2*3
杭州新浪微博(三面)
1、先做代码题,实现基于词典的分词(没做出来,嘤嘤嘤)
2、项目相关问题,总体上问我的项目的落地情况以及应用价值
-----------------------------------------------------------------------
<知乎>
北京知乎1面
基础知识:bert相关的一些,主要包括bert的结构以及mask机制
算法题:
leetcode原题:116. 填充每个节点的下一个右侧节点指针
北京知乎2面
基础知识:
1、什么是过拟合和欠拟合,以及防止过拟合的方法有哪些
2、常用损失函数有哪一些?为什么一般交叉熵损失用于分类而均方差损失用于回归?
3、CRF中的损失函数是如何计算的?
算法题:
二叉树的最近公共祖先 (当时不会,让他换了一个题目,树的层序遍历,做出来了)
北京知乎3面
基础知识:
1、介绍fast_align 和simalign的工作原理(项目中有涉及)
2、word2vec中词表过大时怎么进行训练加速的? 负采样具体怎么做的?
3、语言模型PPL分是如何计算的
4、NER中为何用CRF?
5、正负样本分布不均匀时如何解决
6、机器学习中的评价指标有哪一些
算法题:
给你一个字符串”ABC”,写出它的全排列
-----------------------------------------------------------------------
<腾讯>
上海腾讯云1面
项目中的问题比较多
基础问题:
1、说一下Transformer的结构
2、BERT和GPT-2的区别
3、还问了我研究生时期的ijcai的论文
算法题:
组合:给定两个整数 n 和 k,返回 1 ... n 中所有可能的 k 个数的组合。
牢骚:其实我面完自我感觉良好,code题目也做出来了,然后第二天还发短信告诉我通过了一面,结果等了十来天没联系我,找老同学帮我看了看,说是挂了,但是面评还不错,可能不太match吧…
深圳腾讯微信1面
1、讨论项目中的问题,问我技术点
基础知识:
1、BERT的结构,如何mask
2、XLM的结构,它是怎么做的,position embedding是怎么样的
没有算法题
深圳腾讯微信2面
1、大多数聊项目中的问题
基础知识
1、语言模型相关的知识点
2、电商标题的BERT+BILSTM+CRF模型中,你是怎么做finetune的
3、BERT+BILSTM+CRF过拟合了,解决方案有哪些,分别从训练方式、数据角度,和模型结构上来说
4、NLP中的数据增强怎么做(因为我做的是电商,所以从电商标题数据中,讲了一些实体词替换的策略)
5、开放性问题,结合他们的业务场景,问我如何做视频内容和视频标题的文本质量评估(可能是因为我在阿里也做了相关文本质量评估的项目)
深圳腾讯微信3面(总监面,聊了1.5h)
1、针对我的过往项目来提问
2、微信面的是视频号搜索,面试官给了我几个场景,问我如何做搜索(主要从deep learning出来前与后的时代,问我分别怎么做)
算法题:
题目二选一,我选了一道自己做过的,为leetcode 34
总结:其实我的项目经历和这个岗位还是有很大的gap的,但是这个总监人还挺好的,本来面试时间是1小时,却和我聊了1.5小时,面试将近尾声时,还问我“你知道为什么我要多和你聊这么久吗?”(哈哈哈~~)
他问我怎么看待技术和业务,为何我现在想从达摩院出来并且找的岗位都是偏向业务的,为什么毕业就去了达摩院。
我回答的比较真诚吧,我说我现在想来其实有些后悔的,如果再给我重来一次,我可能就不会选择达摩院了。
深圳腾讯微信4面(交叉面试)
1、介绍项目一个自己觉得最有成就感的项目
2、主要还是聊NER的技术点,问我为什么现在中文NER在标注的时候都是基于字的而不是基于词的
3、聊我为什么选择从达摩院离开,关于这个问题后面衍生出了很多职场上的问题,我回答的有些许激进,但后面还是极力圆场,手动捂脸。
总结:因为是本科大神老同学内推的,然后深圳岗位hc比较多,所以我这边相当于开了个“后门” 吧,我技术面4面就可以了(网传微信面试技术面都是六七面起步)。
我同学也十分给力,助攻很到位,会告诉我应该怎么准备,也会及时给我发面评,增加我的信心。后来他告诉我几乎他们组都在给我助攻了,那边同事让他发了一些正例和负例的面试样例给我做参考,真的十分感谢!
所以我对这个部门的印象特别好,hhh~~最后我把offer拒了,哎,主要还是深圳离家太远了(要是上海岗就好了,皱眉)
-----------------------------------------------------------------------
<美团>
上海美团点评(推荐方向)1面:直接是负责人面的
都是问我他们业务上碰到的一些问题,包括,如何做人工标注,人工评价的指标如何与模型的评价指标关联起来,以及遇到极端情况时,
比如样本中大部分是正样本,极少数是负样本时,想提高负样本的召回时该怎么做?面到结束,说想找级别高一点的,然后转到了另一个部门
上海美团点评 1面
主要还是聊项目中的问题,聊了将近50分钟
算法题:
下k个排列(只写出了下一个排列)
上海美团点评 2面
没有问基础问题,都是聊项目
Code:1143.最长公共子序列
上海美团点评 3面
聊项目,接着是问点评业务相关的开放性问题
1、如何从用户的评论信息里面抽取重要信息
2、文案抽取和文案生成的方法有哪些
3、结合给出的业务场景,关键词如何抽取
牢骚:哎,最后挂了,我以为稳赢的,还是很可惜的~最后内推的朋友告诉我说是因为没有hc了,负责人觉得尚可,但不至于额外去申请hc,还是自己不够优秀吧
上海美团点评-搜索技术中心-NLP算法工程师
一面:
1、NER中CRF的作用,损失函数是什么
2、描述一下BERT的结构
3、语言模型PPL分的原理
算法题:
给两个字符串,输入:s="asdgb" t="sg" 输出 sdg
二面:
1、学术界远程监督NER的方法有哪一些?
2、autophrase的算法
3、聊项目中的问题
-----------------------------------------------------------------------
<字节跳动>
杭州字节(抖音电商)1面
问了项目中的一些内容
基础知识:
1、说一下你知道的预训练语言模型
2、序列标注的标注方法有哪些,有什么区别?
3、语言模型PPL分怎么计算,原理是什么?如何定义句子的流利度
算法题(2道)
1、写多头self-attention机制的伪代码
2、链表K个节点一组进行翻转
杭州字节(抖音电商)2面
问了项目中的一些内容
基础知识:
1、主要和跨语言预训练语言模型相关,说了mBERT和XLM
2、如何找实体词的跨语言同义词
算法题:
无重复字符的最长子串
杭州字节(抖音电商)3面
主要聊一些开放性问题
1、抖音电商和淘宝有什么区别
2、你觉得小红书这款app的优缺点有哪些(因为我第一个问题说没有用过抖音(手动捂脸,如果我是面试官,我可能就把这个候选人挂起了)玩的比较多的是小红书,因此问我这个问题了。PS:我本来想在面试前安装的,熟悉一下,结果忘记了,我可真是个大聪明啊~~)
-----------------------------------------------------------------------
<b站>
上海b站商业化广告团队
b站1面
开头纯瞎聊,问我为何离开达摩院,以及为何选择投b站这个部门
基础知识:
1、什么是GBDT,以及它的输出是什么,做分类时阈值如何筛选?
2、为什么PPL作为语言模型的衡量指标,描述一下PPL分的计算和代表的含义
算法题:
搜索旋转排序数组
上海b站2面
基础问题:
1、GPT-2和基于LSTM结构的语言模型相比,有何优点?
2、NER中不用CRF会有什么问题?
算法题:
二维平面中给定2n个坐标点,是否可以找到一条直线,将其一分为二
牢骚:b站的二面题目没有做出来,但是后来问hr还是过了面试的,hr面面完以后都提交薪资流水了,后续催了好几次,结果告诉我没有hc了,哎,我真的好气啊,还是自己不够优秀,毕竟二面题目没做出来
-----------------------------------------------------------------------
<华为>:
一面:
1、和我讨论我的论文里面的一些细节,以及有什么可以优化的点
2、问我BERT的结构,以及问我为什么用BERT+Bi-LSTM+CRF结构而不是BERT-CRF
3、详细介绍Transformer结构,以及对应模块输入输出的shape
4、模型太大时怎么办?蒸馏是怎么做的
算法题:(2道)
leetcode48 旋转图像
leetcode199 二叉树的右视图
PS:华为流程真的巨慢巨慢,后来我已经拿到心仪offer了,那边二面都还约不上。主要还是自己不懂拒绝,先给安排了hr面,后来想想真的好累啊,二面我直接拒绝了。
这首歌送给离开家人,离开所爱的人
只身在外追逐梦想,完成目标的每一位你们
也希望你们能为自己勇敢的选择而感到骄傲
https://www.bilibili.com/bangumi/play/ep416796?from=search&seid=17073259143372875362&spm_id_from=333.337.0.0
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧