字节跳动 | 大数据/数据挖掘面经

2020 年 6 月 19 日 AINLP


作者 | 深海柠檬酸菜辣鸡鱼
整理 | NewBeeNLP


面试锦囊之面经分享系列,持续更新中 

赶紧后台回复"面试"加入讨论组交流吧 

一面 40min

  • 【编程题】

有两种数据,分别是被转发的用户和转发的用户,求原视频的用户以及转发的最长深度

from:1,1,2,2,3,6
to:2,3,4,5,6,7

面试官提示转换成树的结构,我写了求树的最大深度的函数,面试官说构造树比较复杂,差不多写这样可以。

  • 【SQL题】

有一张网页访问日志表,记录了user_id,session_id,page_id,timestamp

用户在每点击一个连接跳转,就会记录一个时间戳,并且page_id排序后与时间戳的排序一致,现要求每个用户的每个页面所停留的时间。
比如:
1 1 1 10:00 1 1 3 12:00
面试官看了后说差不多是这样,但要考虑一个边界的问题,最后一个page_id之类的 (请问这个怎么处理?

  • HiveSQL底层是怎么实现的?比如两张表Join的时候会有哪些操作?需要shuffle这一步吗?

  • mapReduce为什么需要Shuffle这一步

二面 40min

  • TCP四次挥手过程中,time_wait字段的作用?
  • 进程和线程的区别
  • 有一个文件,每一行是一个数字,如何用 MapReduce 进行排序
  • 【编程题】n=3 时的全排列
  • 【编程题】二叉树的序列化和反序列化
  • Hive 中的 Distribute by
  • Partition By

三面 ~2h

三面的时候网真的好差,中间网络断了很多次,重新发起了4、5次视频面试,最后还是打电话了

  • 【编程题】在一棵二叉排序树中,找到比给定数值小的最大节点。
  • 【场景题】打车的场景下,poi记录了建筑物的坐标:poi(pid, x, y),odr记录的是乘客上车点的坐标:odr(oid, x, y);希望对所有的poi,获得其周围的100m的odr:结果(pid, oid)

我开始用的是欧式距离的暴力求解,面试官让我提出优化的方案,我说可以计算出每个坐标点的geohash值,相等的值说明可以建立映射关系,面试官说geohash存在的一个问题是可能会出现两个相邻100m之内的点各自的geohash不同,这时怎么解决?

  • 【SQL题】有两张表:文章分类表artical_cate(aid, cate)一个文章可能有多种类型; 用户阅读表user_read(uid, aid),一个用户可能阅读多篇文章。
  • 详细问了实习的项目,涉及到业务背景,有哪些特征,整体流程和方法,问到了基于现在这个版本我会怎么继续优化?

总结
编程基础仍然是关键,结合业务场景的问题更需要拓展思路,平时还要多独立思考。
三面由于一道题没做出来,面的不太好,回绝后隔了一段时间后捞我加面

加面 45min

  • 自我介绍
  • 介绍公司实习的项目,准确率和召回率怎么得到的,提升后达到了多少
  • 二分类问题除了准确率和召回率还有什么别的指标?ROC曲线怎么绘制的
  • 训练集效果很好,但在新的样本上效果不好是什么原因导致的?你用Xgboost训练时怎么解决这个问题
  • 项目中运用MR任务来提高效率是怎么实现的?MapReduce的具体流程是怎么样的?
  • 描述一下在count操作的MR过程
  • 写一个SQL题,考察分组聚合、分区排序等
  • 【编程题】给定一个包含非负整数的数组,你的任务是统计其中可以组成三角形三条边的三元组个数。
  • 场景题:如何预测抖音明天的流量
  • 开放题:如何估计一个湖里鱼的数量?你说的方法可能会出现什么问题
  • 操作系统:32位操作系统的内存
  • 数据结构:知道哪些排序算法?归并排序在任何适合空间复杂度都可以达到O(n)吗

五面 20min

聊天面,问能不能来提前实习,毕业论文,是否有别的offer,导师实验室是否自由等问题

- END -


推荐阅读

【数据挖掘实操】用文本挖掘剖析近5万首《全唐诗》

如何让Bert在finetune小数据集时更“稳”一点

这个NLP工具,玩得根本停不下来

征稿启示| 200元稿费+5000DBC(价值20个小时GPU算力)

中文命名实体识别工具(NER)哪家强?

学自然语言处理,其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

太赞了!Springer面向公众开放电子书籍,附65本数学、编程、机器学习、深度学习、数据挖掘、数据科学等书籍链接及打包下载

数学之美中盛赞的 Michael Collins 教授,他的NLP课程要不要收藏?

自动作诗机&藏头诗生成器:五言、七言、绝句、律诗全了

这门斯坦福大学自然语言处理经典入门课,我放到B站了

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLPer(id:ainlper),备注工作/研究方向+加群目的。


阅读至此了,点个在看吧👇

登录查看更多
0

相关内容

数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。
【2020新书】社交媒体挖掘,212pdf,Mining Social Media
专知会员服务
60+阅读 · 2020年7月30日
【论文推荐】文本摘要简述
专知会员服务
68+阅读 · 2020年7月20日
【教程推荐】中科大刘淇教授-数据挖掘基础,刘 淇
专知会员服务
80+阅读 · 2020年3月4日
清华大学张敏老师,个性化推荐的基础与趋势,145页ppt
专知会员服务
86+阅读 · 2019年11月27日
学习自然语言处理路线图
专知会员服务
137+阅读 · 2019年9月24日
【面经】字节AI Lab-NLP算法热乎面经
深度学习自然语言处理
14+阅读 · 2020年3月29日
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
7轮面试,入职阿里,他做对了什么?
码农翻身
7+阅读 · 2019年9月5日
今日头条广告算法面经!
算法与数据结构
25+阅读 · 2019年5月29日
爱奇艺深度学习算法实习生面经
算法与数据结构
9+阅读 · 2019年5月28日
旷视科技算法研究员面经(21个问答)
算法与数据结构
37+阅读 · 2019年5月8日
春招已近,送你一份ML算法面试大全!
机器学习算法与Python学习
10+阅读 · 2019年2月22日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
如何七周成为数据分析师
R语言中文社区
4+阅读 · 2017年7月19日
Arxiv
5+阅读 · 2018年3月28日
Arxiv
5+阅读 · 2018年3月6日
Arxiv
8+阅读 · 2018年2月23日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关VIP内容
相关资讯
【面经】字节AI Lab-NLP算法热乎面经
深度学习自然语言处理
14+阅读 · 2020年3月29日
面经 | 算法工程师面试题汇总
极市平台
12+阅读 · 2019年10月14日
7轮面试,入职阿里,他做对了什么?
码农翻身
7+阅读 · 2019年9月5日
今日头条广告算法面经!
算法与数据结构
25+阅读 · 2019年5月29日
爱奇艺深度学习算法实习生面经
算法与数据结构
9+阅读 · 2019年5月28日
旷视科技算法研究员面经(21个问答)
算法与数据结构
37+阅读 · 2019年5月8日
春招已近,送你一份ML算法面试大全!
机器学习算法与Python学习
10+阅读 · 2019年2月22日
机器学习面试 | 这些题目一定会被问到
七月在线实验室
5+阅读 · 2017年12月10日
如何七周成为数据分析师
R语言中文社区
4+阅读 · 2017年7月19日
Top
微信扫码咨询专知VIP会员