BAT机器学习面试1000题（426~430题） - 专知

会员服务 ·

0

BAT机器学习面试1000题（426~430题）

2018 年 9 月 10 日 七月在线实验室

点击上方 ⬆ 蓝字关注七月在线实验室

BAT机器学习面试1000题（426~430题）

426题

花了几个小时后，现在你急于建一个高精度的模型。结果，你建了5 个GBM （Gradient Boosted Models），想着boosting算法会显示魔力。不幸的是，没有一个模型比基准模型表现得更好。最后，你决定将这些模型结合到一起。尽管众所周知，结合模型通常精度高，但你就很不幸运。你到底错在哪里？

点击下方空白区域查看答案
▼

解析：

答：据我们所知，组合的学习模型是基于合并弱的学习模型来创造一个强大的学习模型的想法。但是，只有当各模型之间没有相关性的时候组合起来后才比较强大。由于我们已经试了5个 GBM，但没有提高精度，表明这些模型是相关的。

具有相关性的模型的问题是，所有的模型提供相同的信息。例如：如果模型1把User1122归类为 1，模型2和模型3很有可能会做有同样分类，即使它的实际值应该是0，因此，只有弱相关的模型结合起来才会表现更好。

427题

KNN和KMEANS聚类（kmeans clustering）有什么不同？

点击下方空白区域查看答案
▼

解析：

答：不要被它们的名字里的“K”误导。

你应该知道，这两种算法之间的根本区别是，KMEANS本质上是无监督学习而KNN是监督学习。KMEANS是聚类算法。KNN是分类（或回归）算法。

KMEAN算法把一个数据集分割成簇，使得形成的簇是同构的，每个簇里的点相互靠近。该算法试图维持这些簇之间有足够的可分离性。由于无监督的性质，这些簇没有任何标签。NN算法尝试基于其k（可以是任何数目）个周围邻居来对未标记的观察进行分类。它也被称为懒惰学习法，因为它涉及最小的模型训练。因此，它不用训练数据对未看见的数据集进行泛化。

428题

真阳性率和召回有什么关系？写出方程式。

点击下方空白区域查看答案
▼

解析：

答：真阳性率=召回。是的，它们有相同的公式（TP / TP + FN）。注意：要了解更多关于估值矩阵的知识。

429题

你建了一个多元回归模型。你的模型R2为并不如你设想的好。为了改进，你去掉截距项，模型R的平方从0.3变为0.8。这是否可能？怎样才能达到这个结果？

点击下方空白区域查看答案
▼

解析：

答：是的，这有可能。我们需要了解截距项在回归模型里的意义。截距项显示模型预测没有任何自变量，比如平均预测。公式R² = 1 – ∑(y – y´)²/∑(y – ymean)²中的y´是预测值。

当有截距项时，R²值评估的是你的模型基于均值模型的表现。在没有截距项（ymean）时，当分母很大时，该模型就没有这样的估值效果了，∑(y – y´)²/∑(y – ymean)²式的值会变得比实际的小，而R2会比实际值大。

430题

在分析了你的模型后，经理告诉你，你的模型有多重共线性。你会如何验证他说的是真的？在不丢失任何信息的情况下，你还能建立一个更好的模型吗？

点击下方空白区域查看答案
▼

解析：

答：要检查多重共线性，我们可以创建一个相关矩阵，用以识别和除去那些具有75％以上相关性（决定阈值是主观的）的变量。此外，我们可以计算VIF（方差膨胀因子）来检查多重共线性的存在。

VIF值<= 4表明没有多重共线性，而值> = 10意味着严重的多重共线性。

此外，我们还可以用容差作为多重共线性的指标。但是，删除相关的变量可能会导致信息的丢失。为了留住这些变量，我们可以使用惩罚回归模型，如Ridge和Lasso回归。

我们还可以在相关变量里添加一些随机噪声，使得变量变得彼此不同。但是，增加噪音可能会影响预测的准确度，因此应谨慎使用这种方法。

题目来源：七月在线官网（https://www.julyedu.com/）——面试题库——面试大题——机器学习

今日推荐

我们的

【计算机视觉第二期】

正在火热报名中

9月22日开课喽

还没报名的小伙伴们

抓紧时间喽

2人及2人以上组团

立减100元

想组团者可以添加客服：

julyedukefu_02

让客服帮忙组团享受优惠喔

点击下方“阅读原文”

可在线报名

更多资讯

请戳一戳

往期推荐

年薪25万的程序员都选择转行了，究竟是什么行业这么热门？

数据结构究竟是什么？为什么你一定要学好数据结构？

看懂深度学习真的那么难吗？初中数学，就用10分钟

一图了解整个机器学习的核心知识体系（建议收藏）

深度学习难吗？如果你连这25个概念都不知道，当然难！

点击“阅读原文”，立即报名

登录查看更多

0

相关内容

BAT

BAT，分别指21世纪10年代，中国大陆互联网的三大巨头：百度（Baidu），阿里巴巴（Alibaba），腾讯（Tencent）

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

打怪升级！2020机器学习工程师技术路线图

打怪升级！2020机器学习工程师技术路线图

专知会员服务

99+阅读 · 2020年6月3日

机器学习速查手册，135页pdf

机器学习速查手册，135页pdf

专知会员服务

342+阅读 · 2020年3月15日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【干货】监督学习知识手册大全|维基百科书，附103页pdf下载

【干货】监督学习知识手册大全|维基百科书，附103页pdf下载

专知会员服务

69+阅读 · 2019年12月5日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

【机器学习课程】Google机器学习速成课程

【机器学习课程】Google机器学习速成课程

专知会员服务

169+阅读 · 2019年12月2日

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

专知会员服务

211+阅读 · 2019年11月29日

BAT机器学习面试1000题（721~725题）

BAT机器学习面试1000题（721~725题）

七月在线实验室

11+阅读 · 2018年12月18日

BAT机器学习面试1000题（716~720题）

BAT机器学习面试1000题（716~720题）

七月在线实验室

19+阅读 · 2018年12月17日

BAT机器学习面试题1000题（376~380题）

BAT机器学习面试题1000题（376~380题）

七月在线实验室

9+阅读 · 2018年8月27日

BAT机器学习面试题1000题（331~335题）

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

BAT机器学习面试题1000题（316~320题）

BAT机器学习面试题1000题（316~320题）

七月在线实验室

14+阅读 · 2018年1月18日

BAT机器学习面试题及解析（266-270题）

BAT机器学习面试题及解析（266-270题）

七月在线实验室

6+阅读 · 2017年12月13日

BAT题库 | 机器学习面试1000题系列（第196~200题）

BAT题库 | 机器学习面试1000题系列（第196~200题）

七月在线实验室

17+阅读 · 2017年11月16日

BAT题库 | 机器学习面试1000题系列（第191~195题）

BAT题库 | 机器学习面试1000题系列（第191~195题）

七月在线实验室

6+阅读 · 2017年11月15日

BAT机器学习面试1000题系列（第116~120题）

BAT机器学习面试1000题系列（第116~120题）

七月在线实验室

16+阅读 · 2017年10月24日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Hierarchically-Refined Label Attention Network for Sequence Labeling

Hierarchically-Refined Label Attention Network for Sequence Labeling

Arxiv

3+阅读 · 2019年8月23日

Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommendation

Arxiv

11+阅读 · 2019年6月13日

Label Embedded Dictionary Learning for Image Classification

Label Embedded Dictionary Learning for Image Classification

Arxiv

6+阅读 · 2019年3月7日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

How Powerful are Graph Neural Networks?

Arxiv

23+阅读 · 2018年10月1日

Towards Understanding Regularization in Batch Normalization

Towards Understanding Regularization in Batch Normalization

Arxiv

4+阅读 · 2018年9月27日

Vision Meets Drones: A Challenge

Arxiv

6+阅读 · 2018年4月23日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Deep Learning Framework for Multi-class Breast Cancer Histology Image Classification

Arxiv

9+阅读 · 2018年2月3日

VIP会员

相关主题

知识神经元网络

多重共线性

相关VIP内容

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

【CVPR2020-北京大学】自适应间隔损失的提升小样本学习

专知会员服务

85+阅读 · 2020年6月9日

打怪升级！2020机器学习工程师技术路线图

打怪升级！2020机器学习工程师技术路线图

专知会员服务

99+阅读 · 2020年6月3日

机器学习速查手册，135页pdf

机器学习速查手册，135页pdf

专知会员服务

342+阅读 · 2020年3月15日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

【经典书】精通机器学习特征工程，中文版，178页pdf

【经典书】精通机器学习特征工程，中文版，178页pdf

专知会员服务

360+阅读 · 2020年2月15日

【干货】监督学习知识手册大全|维基百科书，附103页pdf下载

【干货】监督学习知识手册大全|维基百科书，附103页pdf下载

专知会员服务

69+阅读 · 2019年12月5日

谷歌机器学习速成课程中文版pdf

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

【机器学习课程】Google机器学习速成课程

【机器学习课程】Google机器学习速成课程

专知会员服务

169+阅读 · 2019年12月2日

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

人工智能算法工程师手册-程序员写的AI书《深度学习，统计学习，数学基础》，50章一书打尽

专知会员服务

211+阅读 · 2019年11月29日

热门VIP内容

开通专知VIP会员享更多权益服务

从社会学实验到行为仿真：理解基于Agent的观点动力学建模思维

中英文版《GPT-5 System Card速览》报告

ACL 2025 | 大模型结构化知识提示的泛化能力研究

【普林斯顿博士论文】大型模型的高效推理

相关资讯

BAT机器学习面试1000题（721~725题）

BAT机器学习面试1000题（721~725题）

七月在线实验室

11+阅读 · 2018年12月18日

BAT机器学习面试1000题（716~720题）

BAT机器学习面试1000题（716~720题）

七月在线实验室

19+阅读 · 2018年12月17日

BAT机器学习面试题1000题（376~380题）

BAT机器学习面试题1000题（376~380题）

七月在线实验室

9+阅读 · 2018年8月27日

BAT机器学习面试题1000题（331~335题）

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

BAT机器学习面试题1000题（316~320题）

BAT机器学习面试题1000题（316~320题）

七月在线实验室

14+阅读 · 2018年1月18日

BAT机器学习面试题及解析（266-270题）

BAT机器学习面试题及解析（266-270题）

七月在线实验室

6+阅读 · 2017年12月13日

BAT题库 | 机器学习面试1000题系列（第196~200题）

BAT题库 | 机器学习面试1000题系列（第196~200题）

七月在线实验室

17+阅读 · 2017年11月16日

BAT题库 | 机器学习面试1000题系列（第191~195题）

BAT题库 | 机器学习面试1000题系列（第191~195题）

七月在线实验室

6+阅读 · 2017年11月15日

BAT机器学习面试1000题系列（第116~120题）

BAT机器学习面试1000题系列（第116~120题）

七月在线实验室

16+阅读 · 2017年10月24日

BAT机器学习面试1000题系列（第51~55题）

BAT机器学习面试1000题系列（第51~55题）

七月在线实验室

10+阅读 · 2017年10月8日

相关论文

Interference and Generalization in Temporal Difference Learning

Arxiv

8+阅读 · 2020年3月13日

Hierarchically-Refined Label Attention Network for Sequence Labeling

Hierarchically-Refined Label Attention Network for Sequence Labeling

Arxiv

3+阅读 · 2019年8月23日

Knowledge-aware Graph Neural Networks with Label Smoothness Regularization for Recommendation

Arxiv

11+阅读 · 2019年6月13日

Label Embedded Dictionary Learning for Image Classification

Label Embedded Dictionary Learning for Image Classification

Arxiv

6+阅读 · 2019年3月7日

A XGBoost risk model via feature selection and Bayesian hyper-parameter optimization

Arxiv

5+阅读 · 2019年1月24日

How Powerful are Graph Neural Networks?

Arxiv

23+阅读 · 2018年10月1日

Towards Understanding Regularization in Batch Normalization

Towards Understanding Regularization in Batch Normalization

Arxiv

4+阅读 · 2018年9月27日

Vision Meets Drones: A Challenge

Arxiv

6+阅读 · 2018年4月23日

Group Normalization

Arxiv

7+阅读 · 2018年3月22日

Deep Learning Framework for Multi-class Breast Cancer Histology Image Classification

Arxiv

9+阅读 · 2018年2月3日

大家都在搜

大型语言模型

软件无线电

久别重逢话双塔

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员