BAT题库 | 机器学习面试1000题系列（第186~190题）

会员服务 ·

BAT题库 | 机器学习面试1000题系列（第186~190题）

2017 年 11 月 14 日 七月在线实验室 七月在线

上期思考题及参考解析

185.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：（）。

　　A. 二分类问题

　　B. 多分类问题

　　C. 层次聚类问题

　　D. k-中心点聚类问题

　　E. 回归问题

　　F. 结构分析问题

　　正确答案：B

　　@刘炫320，本题题目及解析来源：http://blog.csdn.net/column/details/16442.html

　　二分类：每个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其他。二分类肯定行不通。瓦普尼克95年提出来基础的支持向量机就是个二分类的分类器，这个分类器学习过程就是解一个基于正负二分类推导而来的一个最优规划问题（对偶问题），要解决多分类问题就要用决策树把二分类的分类器级联，VC维的概念就是说的这事的复杂度。

　　层次聚类：创建一个层次等级以分解给定的数据集。监狱里的对象分别是狱警、小偷、送餐员、或者其他，他们等级应该是平等的，所以不行。此方法分为自上而下（分解）和自下而上（合并）两种操作方式。

　　K-中心点聚类：挑选实际对象来代表簇，每个簇使用一个代表对象。它是围绕中心点划分的一种规则，所以这里并不合适。

　　回归分析：处理变量之间具有相关性的一种统计方法，这里的狱警、小偷、送餐员、其他之间并没有什么直接关系。

　　结构分析：结构分析法是在统计分组的基础上，计算各组成部分所占比重，进而分析某一总体现象的内部结构特征、总体的性质、总体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式，就是计算结构指标。这里也行不通。

　　多分类问题：针对不同的属性训练几个不同的弱分类器，然后将它们集成为一个强分类器。这里狱警、小偷、送餐员以及他某某，分别根据他们的特点设定依据，然后进行区分识别。

186.关于 logit 回归和 SVM 不正确的是（）

　　A.Logit回归目标函数是最小化后验概率

　　B. Logit回归可以用于预测事件发生概率的大小

　　C. SVM目标是结构风险最小化

　　D.SVM可以有效避免模型过拟合

　　正确答案： A

　　@刘炫320，本题题目及解析来源：http://blog.csdn.net/column/details/16442.html

　　A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数，并没有最大化后验概率，更谈不上最小化后验概率。而最小化后验概率是朴素贝叶斯算法要做的。A错误

　　B. Logit回归的输出就是样本属于正类别的几率，可以计算出概率，正确

　　C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面，应该属于结构风险最小化。

　　D. SVM可以通过正则化系数控制模型的复杂度，避免过拟合。

187.有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()

　　A. 2x+y=4

　　B. x+2y=5

　　C. x+2y=3

　　D. 2x-y=0

　　正确答案：C

　　解析：这道题简化了，对于两个点来说，最大间隔就是垂直平分线，因此求出垂直平分线即可。

188.下面有关分类算法的准确率，召回率，F1 值的描述，错误的是？

　　A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率

　　B.召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率

　　C.正确率、召回率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高

　　D.为了解决准确率和召回率冲突问题，引入了F1分数

　　正确答案：C

　　解析：对于二类分类问题常用的评价指标是精准度（precision）与召回率（recall）。通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，4种情况出现的总数分别记作：

　　TP——将正类预测为正类数

　　FN——将正类预测为负类数

　　FP——将负类预测为正类数

　　TN——将负类预测为负类数

　　由此：

　　精准率定义为：P = TP / (TP + FP)

　　召回率定义为：R = TP / (TP + FN)

　　F1值定义为： F1 = 2 P R / (P + R)

　　精准率和召回率和F1取值都在0和1之间，精准率和召回率高，F1值也会高，不存在数值越接近0越高的说法，应该是数值越接近1越高。

189.以下几种模型方法属于判别式模型(Discriminative Model)的有()

　　1)混合高斯模型 2)条件随机场模型

　　3)区分度训练 4)隐马尔科夫模型

　　A.2,3

　　B.3,4

　　C.1,4

　　D.1,2

　　正确答案：A

　　@刘炫320，本题题目及解析来源：http://blog.csdn.net/column/details/16442.html

　　常见的判别式模型有：Logistic regression（logistical 回归）

　　Linear discriminant analysis（线性判别分析）

　　Supportvector machines（支持向量机）

　　Boosting（集成学习）

　　Conditional random fields（条件随机场）

　　Linear regression（线性回归）

　　Neural networks（神经网络）

　　常见的生成式模型有:Gaussian mixture model and othertypes of mixture model（高斯混合及其他类型混合模型）

　　Hidden Markov model（隐马尔可夫）

　　NaiveBayes（朴素贝叶斯）

　　AODE（平均单依赖估计）

　　Latent Dirichlet allocation（LDA主题模型）

　　Restricted Boltzmann Machine（限制波兹曼机）

　　生成式模型是根据概率乘出结果，而判别式模型是给出输入，计算出结果。

分割线

本期思考题：

190.SPSS中，数据整理的功能主要集中在（）等菜单中

　　A.数据

　　B.直销

　　C.分析

　　D.转换

参考答案请见下期文章！

往期题目：

BAT机器学习面试1000题系列（第1~60题）

BAT机器学习面试1000题系列（第61~100题）

BAT机器学习面试1000题系列（第101~105题）

BAT机器学习面试1000题系列（第106~110题）

BAT机器学习面试1000题系列（第111~115题）

BAT机器学习面试1000题系列（第116~120题）

BAT机器学习面试1000题系列（第121~125题）

BAT机器学习面试1000题系列（第126~130题）

BAT机器学习面试1000题系列（第131~135题）

BAT机器学习面试1000题系列（第136~140题）

BAT机器学习面试1000题系列（第141~145题）

BAT机器学习面试1000题系列（第146~150题）

BAT机器学习面试1000题系列（第151~155题）

BAT机器学习面试1000题系列（第155~160题）

BAT机器学习面试1000题系列（第161~165题）

BAT机器学习面试1000题系列（第166~170题）

BAT机器学习面试1000题系列（第171~175题）

BAT机器学习面试1000题系列（第176~180题）

BAT机器学习面试1000题系列（第181~185题）

课程咨询｜微信：julyedukefu

七月热线：010-82712840

登录查看更多

相关内容

二分类

关注 0

打怪升级！2020机器学习工程师技术路线图

专知会员服务

99+阅读 · 2020年6月3日

国科大UCAS胡包钢教授《信息论与机器学习》课程第三讲：信息论基础二

专知会员服务

71+阅读 · 2020年3月2日

【干货】大数据入门指南：Hadoop、Hive、Spark、 Storm等

专知会员服务

98+阅读 · 2019年12月4日

【机器学习课程】机器学习中的常识性问题

专知会员服务

75+阅读 · 2019年12月2日

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

专知会员服务

211+阅读 · 2019年11月29日

BAT题库 | 机器学习面试1000题系列（第226~230题）

七月在线实验室

9+阅读 · 2017年11月27日

BAT题库 | 机器学习面试1000题系列（第211~215题）

七月在线实验室

9+阅读 · 2017年11月22日

BAT题库 | 机器学习面试1000题系列（第196~200题）

七月在线实验室

17+阅读 · 2017年11月16日

BAT题库 | 机器学习面试1000题系列（第191~195题）

七月在线实验室

6+阅读 · 2017年11月15日

BAT机器学习面试1000题系列（第76~80题）

七月在线实验室

5+阅读 · 2017年10月13日

Optimization for deep learning: theory and algorithms

Arxiv

106+阅读 · 2019年12月19日

Towards Understanding Regularization in Batch Normalization

Arxiv

4+阅读 · 2018年9月27日

Charades-Ego: A Large-Scale Dataset of Paired Third and First Person Videos

Arxiv

4+阅读 · 2018年4月30日

Deep Learning for Digital Text Analytics: Sentiment Analysis

Arxiv

4+阅读 · 2018年4月10日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

VIP会员