BAT题库 | 机器学习面试1000题系列（第226~230题）

2017 年 11 月 27 日 七月在线实验室 七月在线

226.为什么很多做人脸的Paper会最后加入一个Local Connected Conv？

　　@许韩，来源：https://zhuanlan.zhihu.com/p/25005808

　　以FaceBook DeepFace 为例：

　　DeepFace 先进行了两次全卷积＋一次池化，提取了低层次的边缘／纹理等特征。后接了3个Local-Conv层，这里是用Local-Conv的原因是，人脸在不同的区域存在不同的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时，Local-Conv更适合特征的提取。

227.什么事共线性, 跟过拟合有什么关联?

　　@抽象猴，来源：https://www.zhihu.com/question/41233373/answer/145404190

　　共线性：多变量线性回归中，变量之间由于存在高度相关关系而使回归估计不准确。

　　共线性会造成冗余，导致过拟合。

　　解决方法：排除变量的相关性／加入权重正则。

228.为什么网络够深(Neurons 足够多)的时候，总是可以避开较差Local Optima？

　　参见：The Loss Surfaces of Multilayer Networks（https://arxiv.org/pdf/1412.0233.pdf）

229.机器学习中的正负样本

　　在分类问题中，这个问题相对好理解一点，比如人脸识别中的例子，正样本很好理解，就是人脸的图片，负样本的选取就与问题场景相关，具体而言，如果你要进行教室中学生的人脸识别，那么负样本就是教室的窗子、墙等等，也就是说，不能是与你要研究的问题毫不相关的乱七八糟的场景图片，这样的负样本并没有意义。负样本可以根据背景生成，有时候不需要寻找额外的负样本。一般3000-10000的正样本需要5，000,000-100,000,000的负样本来学习，在互金领域一般在入模前将正负比例通过采样的方法调整到3:1-5:1。

230.机器学习中，有哪些特征选择的工程方法？

　　数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

　　1. 计算每一个特征与响应变量的相关性：工程上常用的手段有计算皮尔逊系数和互信息系数，皮尔逊系数只能衡量线性相关性而互信息系数能够很好地度量各种相关性，但是计算相对复杂一些，好在很多toolkit里边都包含了这个工具（如sklearn的MINE），得到相关性之后就可以排序选择特征了；

　　2. 构建单个特征的模型，通过模型的准确性为特征排序，借此来选择特征；

　　3.通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验*；

　　4. 训练能够对特征打分的预选模型：RandomForest和Logistic Regression等都能对模型的特征打分，通过打分获得相关性后再训练最终模型；

　　5.通过特征组合后再来选择特征：如对用户id和用户特征最组合来获得较大的特征集再来选择特征，这种做法在推荐系统和广告系统中比较常见，这也是所谓亿级甚至十亿级特征的主要来源，原因是用户数据比较稀疏，组合特征能够同时兼顾全局模型和个性化模型，这个问题有机会可以展开讲。

　　6.通过深度学习来进行特征选择：目前这种手段正在随着深度学习的流行而成为一种手段，尤其是在计算机视觉领域，原因是深度学习具有自动学习特征的能力，这也是深度学习又叫unsupervised feature learning的原因。从深度学习模型中选择某一神经层的特征后就可以用来进行最终目标模型的训练了。