BAT机器学习面试题及解析（271-275题）

会员服务 ·

BAT机器学习面试题及解析（271-275题）

2017 年 12 月 14 日 七月在线实验室

本系列作为国内首个AI题库，囊括绝大部分机器学习和深度学习的笔试面试题、知识点，可以作为机器学习自测题，也可以当做查漏补缺的资料库。

271.SVM、LR、决策树的对比。

模型复杂度：SVM支持核函数，可处理线性非线性问题;LR模型简单，训练速度快，适合处理线性问题;决策树容易过拟合，需要进行剪枝

损失函数：SVM hinge loss; LR L2正则化; adaboost 指数损失

数据敏感度：SVM添加容忍度对outlier不敏感，只关心支持向量，且需要先做归一化; LR对远点敏感
数据量：数据量大就用LR，数据量小且特征少就用SVM非线性核

272.什么是ill-condition病态问题？

训练完的模型，测试样本稍作修改就会得到差别很大的结果，就是病态问题，模型对未知数据的预测能力很差，即泛化误差大。

273.简述KNN最近邻分类算法的过程？
1. 计算训练样本和测试样本中每个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；
2. 对上面所有的距离值进行排序；
3. 选前k个最小距离的样本；
4. 根据这k个样本的标签进行投票，得到最后的分类类别；

274.常用的聚类划分方式有哪些？列举代表算法。
1. 基于划分的聚类:K-means，k-medoids，CLARANS。
2. 基于层次的聚类：AGNES（自底向上），DIANA（自上向下）。
3. 基于密度的聚类：DBSACN，OPTICS，BIRCH(CF-Tree)，CURE。
4. 基于网格的方法：STING，WaveCluster。
5. 基于模型的聚类：EM,SOM，COBWEB。

275.下面对集成学习模型中的弱学习者描述错误的是？
A.他们经常不会过拟合
B.他们通常带有高偏差，所以其并不能解决复杂学习问题
C.他们通常会过拟合
答案：C，弱学习者是问题的特定部分。所以他们通常不会过拟合，这也就意味着弱学习者通常拥有低方差和高偏差。