BAT机器学习面试1000题(411~415题)

2018 年 9 月 5 日 七月在线实验室

点击上方     蓝字关注七月在线实验室



诚邀爱刷题的你,加入【机器学习·30天刷题团】,利用碎片化时间,每天15分钟,扫描文末海报二维码,了解刷题团详情。 



BAT机器学习面试1000题(411~415题)


411题

什么是OOB?随机森林中OOB是如何计算的,它有什么优缺点?


点击下方空白区域查看答案

解析:

bagging方法中Bootstrap每次约有1/3的样本不会出现在Bootstrap所采集的样本集合中,当然也就没有参加决策树的建立,把这1/3的数据称为袋外数据oob(out of bag),它可以用于取代测试集误差估计方法。 


袋外数据(oob)误差的计算方法如下:对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小=X/O;这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。




412题

推导朴素贝叶斯分类 P(c|d),文档 d(由若干 word 组成),求该文档属于类别 c 的概率, 并说明公式中哪些概率可以利用训练集计算得到


点击下方空白区域查看答案

解析:

根据贝叶斯公式P(c|d)=(P(c)P(d|c)/P(d))


 这里,分母P(d)不必计算,因为对于每个类都是相等的。 分子中,P(c)是每个类别的先验概率,可以从训练集直接统计,P(d|c)根据独立性假设,可以写成如下 P(d|c)=¥P(wi|c)(¥符号表示对d中每个词i在c类下概率的连乘),P(wi|c)也可以从训练集直接统计得到。 至此,对未知类别的d进行分类时,类别为c=argmaxP(c)¥P(wi|c)。





413题

请写出你了解的机器学习特征工程操作,以及它的意义


点击下方空白区域查看答案

解析:

特征工程包括数据与特征处理、特征选择和降纬三部分。 


数据与特征处理包括: 

  1. 数据选择、清洗、采样- 数据格式化;- 数据清洗,填充缺失值、去掉脏数据,将不可信的样本丢掉,缺省值极多的字段考虑不用;- 采样:针对正负样本不平衡的情况,当正样本远大于负样本时,且量都很大时,使用下采样,量不大时,可采集更多的数据或oversampling或修改损失函数;采样过程中可利用分层抽样保持不同类别数据的比例。


  2. 不同类型数据的特征处理- 数值型:幅度调整/归一化、log等变化、统计值(例如max、min、mean、std)、离散化、分桶等- 类别型:one-hot编码等- 时间型: 提取出连续值的持续时间和间隔时间;提取出离散值的“年”、“月”、“日”、“一年中哪个星期/季度”、“一周中的星期几”、“工作日/周末”等信息- 文本型:使用If-idf特征- 统计型:加减平均、分位线、次序、比例


意义: 

- 对数据进行预处理,可提高数据质量,提高挖掘质量。对数据进行清洗可填充缺失值、光滑噪声数据,识别和删除离群点数据,保证数据的一致性;

 - 使用正确的采样方法可解决因数据不平衡带来的预测偏差;

 - 对不同的数据类型进行不同的特征处理有助于提高特征的可用性,例如对数值型数据进行归一化可将数据转化到统一量纲下;对类别型数据,可用one-hot编码方法将类别数据数字化,数字化特征之后可更用来计算距离、相似性等;可从时间型数据当中提取中更多的时间特征,例如年、月和日等,这些特征对于业务场景以及模型的预测往往有很大的帮助。统计型特征处理有助于从业务场景中挖掘更丰富的信息。


特征选择包括: 

1.Filter使用方差、Pearson相关系数、互信息等方法过滤特征,评估单个特征和结果值之间的相关程度,留下Top相关的特征部分。

2.Wrapper可利用“递归特征删除算法”,把特征选择看做一个特征子集搜索问题,筛选各种特征子集,用模型评估效果。

 3.Embedded可利用正则化方式选择特征,使用带惩罚项的基模型,除了选择出特征外,同时也进行了降纬。 


意义:-剔除对结果预测不大的特征,减小冗余,选择有意义的特征输入模型,提高计算性能。  


降纬:方法:主成分分析法(PCA)和线性判别分析(LDA)


 意义:通过PCA或LDA方法,将较高纬度样本空间映射到较低维度的样本空间,从而达到降纬的目的,减少模型的训练时间,提高模型的计算性能。





414题

请写出你对VC维的理解和认识


点击下方空白区域查看答案

解析:

VC维是模型的复杂程度,模型假设空间越大,VC维越高。某种程度上说,VC维给机器学习可学性提供了理论支撑。  


1.测试集合的loss是否和训练集合的loss接近?VC维越小,理论越接近,越不容易overfitting。 

2. 训练集合的loss是否足够小?VC维越大,loss理论越小,越不容易underfitting。 


我们对模型添加的正则项可以对模型复杂度(VC维)进行控制,平衡这两个部分。





415题

怎么理解“机器学习的各种模型与他们各自的损失函数一一对应?”


点击下方空白区域查看答案


解析:

寒:首先你要明确 超参数 和 参数 的差别,超参数通常是你为了定义模型,需要提前敲定的东西(比如多项式拟合的最高次数,svm选择的核函数),参数是你确定了超参数(比如用最高3次的多项式回归),学习到的参数(比如多项式回归的系数) 


另外可以把机器学习视作 表达 + 优化,其中表达的部分,各种模型会有各种不同的形态(线性回归 逻辑回归 SVM 树模型),但是确定了用某个模型(比如逻辑回归)去解决问题,你需要知道当前模型要达到更好的效果,优化方向在哪,这个时候就要借助损失函数了。 


下面就是一个小例子,一样的打分函数,选用不同的loss function会变成不同的模型


图取自 http://cs231n.github.io/linear-classify/有一个我汉化的版本 https://blog.csdn.net/han_xiao ... 99583更深入的内容欢迎查阅更多机器学习的资料,或者参与机器学习相关的课程,来讨论



题目来源:七月在线官网(https://www.julyedu.com/)——面试题库——面试大题——机器学习



今日推荐

我们的

计算机视觉第二期

正在火热报名中喔

还没报名的小伙伴们

抓紧时间喽

2人及2人以上组团

立减100元

想组团者可以添加客服:

julyedukefu_02

让客服帮忙组团享受优惠喔

点击下方“阅读原文

可在线报名


 分享一哈:

喜欢刷题的你,一定不要错过啦

【机器学习·30天刷题团】

超300道ML优质题目,每天限刷10道

班主任督学,专业讲师答疑

一起营造最好的刷题体验

扫码立即参加


往期推荐

面试常考:Python中的os模块和sys模块「文末送Python畅销书」

一图了解整个机器学习的核心知识体系(建议收藏)

kaggle大杀器之十大深度学习技巧,你了解多少?

深度学习难吗?如果你连这25个概念都不知道,当然难!

45万AI面经 |  面试offer拿不停,人称“offer收割机”

【干货合集】关于支持向量机(SVM)的原理,你了解多少?(万字长文 速收)

点击“阅读原文”,可在线报名

登录查看更多
2

相关内容

随机森林 指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
393+阅读 · 2020年6月8日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
193+阅读 · 2020年5月2日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
BAT机器学习面试1000题(721~725题)
七月在线实验室
11+阅读 · 2018年12月18日
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
BAT机器学习面试题1000题(316~320题)
七月在线实验室
14+阅读 · 2018年1月18日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
BAT机器学习面试1000题系列(第76~80题)
七月在线实验室
5+阅读 · 2017年10月13日
BAT机器学习面试1000题系列(第36~40题)
七月在线实验室
8+阅读 · 2017年10月3日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
7+阅读 · 2019年1月8日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
6+阅读 · 2018年4月23日
VIP会员
相关VIP内容
【经典书】机器学习:贝叶斯和优化方法,1075页pdf
专知会员服务
393+阅读 · 2020年6月8日
【经典书】机器学习高斯过程,266页pdf
专知会员服务
193+阅读 · 2020年5月2日
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
机器学习速查手册,135页pdf
专知会员服务
336+阅读 · 2020年3月15日
【经典书】精通机器学习特征工程,中文版,178页pdf
专知会员服务
347+阅读 · 2020年2月15日
【机器学习课程】Google机器学习速成课程
专知会员服务
162+阅读 · 2019年12月2日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
140+阅读 · 2019年10月10日
学习自然语言处理路线图
专知会员服务
133+阅读 · 2019年9月24日
相关资讯
BAT机器学习面试1000题(721~725题)
七月在线实验室
11+阅读 · 2018年12月18日
BAT机器学习面试1000题(716~720题)
七月在线实验室
19+阅读 · 2018年12月17日
BAT机器学习面试题1000题(376~380题)
七月在线实验室
9+阅读 · 2018年8月27日
BAT机器学习面试题1000题(331~335题)
七月在线实验室
12+阅读 · 2018年8月13日
BAT机器学习面试题1000题(316~320题)
七月在线实验室
14+阅读 · 2018年1月18日
机器学习面试题精讲(一)
七月在线实验室
4+阅读 · 2018年1月11日
BAT题库 | 机器学习面试1000题系列(第196~200题)
七月在线实验室
17+阅读 · 2017年11月16日
BAT机器学习面试1000题系列(第116~120题)
七月在线实验室
16+阅读 · 2017年10月24日
BAT机器学习面试1000题系列(第76~80题)
七月在线实验室
5+阅读 · 2017年10月13日
BAT机器学习面试1000题系列(第36~40题)
七月在线实验室
8+阅读 · 2017年10月3日
Top
微信扫码咨询专知VIP会员