BAT机器学习面试题1000题(371~375题)

2018 年 8 月 24 日 七月在线实验室

点击上方蓝字关注




BAT机器学习面试题1000题(371~375题)


371题

标准化与归一化的区别?


点击下方空白区域查看答案

解析:

简单来说,标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。关于什么是归一化,请参见:https://www.julyedu.com/question/big/kp_id/23/ques_id/1011





372题

随机森林如何处理缺失值?

点击下方空白区域查看答案

解析:

方法一(na.roughfix)简单粗暴,对于训练集,同一个class下的数据,如果是分类变量缺失,用众数补上,如果是连续型变量缺失,用中位数补。方法二(rfImpute)这个方法计算量大,至于比方法一好坏?不好判断。先用na.roughfix补上缺失值,然后构建森林并计算proximity matrix,再回头看缺失值,如果是分类变量,则用没有缺失的观测实例的proximity中的权重进行投票。如果是连续型变量,则用proximity矩阵进行加权平均的方法补缺失值。然后迭代4-6次,这个补缺失值的思想和KNN有些类似12。





373题

随机森林如何评估特征重要性?

点击下方空白区域查看答案

解析:

衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy:1) Decrease GINI: 对于回归问题,直接使用argmax(VarVarLeftVarRight)作为评判标准,即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。2) Decrease Accuracy:对于一棵树Tb(x),我们用OOB样本可以得到测试误差1;然后随机改变OOB样本的第j列:保持其他列不变,对第j列进行随机的上下置换,得到误差2。至此,我们可以用误差1-误差2来刻画变量j的重要性。基本思想就是,如果一个变量j足够重要,那么改变它会极大的增加测试误差;反之,如果改变它测试误差没有增大,则说明该变量不是那么的重要。




374题

优化Kmeans?


点击下方空白区域查看答案

解析:

使用kd树或者ball tree将所有的观测实例构建成一颗kd树,之前每个聚类中心都是需要和每个观测点做依次距离计算,现在这些聚类中心根据kd树只需要计算附近的一个局部区域即可。





375题

KMeans初始类簇中心点的选取。

点击下方空白区域查看答案

解析:

k-means++算法选择初始seeds的基本思想就是:初始的聚类中心之间的相互距离要尽可能的远。

 1. 从输入的数据点集合中随机选择一个点作为第一个聚类中心 

2. 对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x) 

3. 选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大

4. 重复2和3直到k个聚类中心被选出来

5. 利用这k个初始的聚类中心来运行标准的k-means算法




题目来源:七月在线官网(https://www.julyedu.com/)——面试题库——面试大题——机器学习


分享一哈

分享完机器学习面试题

再和大家分享一哈

我们的

深度学习-第四期

课程火热报名中喔

还没报名的小伙伴们

抓紧时间喽

2人及2人以上组团

立减100元

点击下方“阅读原文

可在线报名

或添加客服咨询

julyedukefu_02

最关键的是

参与抽奖

免费送

深度学习第四期课程  

还能组团玩,一人中奖,全队中奖

还在等什么,

来和我一起组团抽奖吧

长按识别小程序,参与抽奖

👇


 更多资讯

 请戳一戳

往期推荐

这十个Python实战项目,让你瞬间读懂Python!(文末送书)

机器学习中的弯路该如何避免?5个新人常见问题和3个学习规划

想做Python开发,这14种常用Python模块,你必须知道!

深度学习难吗?如果你连这25个概念都不知道,当然难!

这10道题会做,年薪百万木问题

45万AI面经 |  面试offer拿不停,人称“offer收割机”

【干货合集】关于支持向量机(SVM)的原理,你了解多少?(万字长文 速收)

点击“阅读原文”,可在线报名

登录查看更多
0

相关内容

【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
41+阅读 · 2020年3月21日
Sklearn 与 TensorFlow 机器学习实用指南,385页pdf
专知会员服务
130+阅读 · 2020年3月15日
机器学习速查手册,135页pdf
专知会员服务
342+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
358+阅读 · 2020年2月15日
专知会员服务
162+阅读 · 2020年1月16日
【机器学习课程】Google机器学习速成课程
专知会员服务
165+阅读 · 2019年12月2日
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
BAT机器学习面试题1000题(316~320题)
七月在线实验室
14+阅读 · 2018年1月18日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
BAT机器学习面试1000题系列(第36~40题)
七月在线实验室
8+阅读 · 2017年10月3日
Arxiv
5+阅读 · 2018年6月12日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
3+阅读 · 2018年2月24日
VIP会员
相关VIP内容
相关资讯
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
BAT机器学习面试题1000题(316~320题)
七月在线实验室
14+阅读 · 2018年1月18日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT题库 | 机器学习面试1000题系列(第211~215题)
七月在线实验室
9+阅读 · 2017年11月22日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
BAT机器学习面试1000题系列(第51~55题)
七月在线实验室
10+阅读 · 2017年10月8日
BAT机器学习面试1000题系列(第36~40题)
七月在线实验室
8+阅读 · 2017年10月3日
相关论文
Arxiv
5+阅读 · 2018年6月12日
Arxiv
7+阅读 · 2018年3月22日
Arxiv
6+阅读 · 2018年3月12日
Arxiv
3+阅读 · 2018年2月24日
Top
微信扫码咨询专知VIP会员