【ML小白】10 个机器学习 Q&A，面试必知！

会员服务 ·

【ML小白】10 个机器学习 Q&A，面试必知！

2019 年 9 月 9 日 机器学习算法与Python学习

本文整理了一些最常见的机器学习面试问题及其相应的回答。机器学习有志者以及经验丰富的ML专业人员可以在面试前以此巩固其基础知识。

1. 机器学习和深度学习有什么区别？

机器学习是人工智能的一个子集，为机器提供了无需任何显式编程就能自动学习和改进的能力。而深度学习是机器学习的一个子集，其人工神经网络能够做出直觉决策。

2. 如何理解召回率和精度这两个术语？

召回率又称真阳性率，是模型所需的阳性例数与整个数据中可用阳性例数的比值。

精度基于预测，又称阳性预测值，是模型所需的准确阳性例数测量值与模型实际需要的阳性例数之间的比值。

3. 监督机器学习和无监督机器学习有什么区别？

在监督学习中，机器在标记数据的帮助下进行训练，即带有正确答案标记的数据。而在无监督机器学习中，模型自主发现信息进行学习。与监督学习模型相比，无监督模型更适合于执行困难的处理任务。

图片来源： https://unsplash.com/@brookelark

4. 什么是K-means和KNN？

K-means是一种用于处理聚类问题的无监督算法，KNN或K近邻是一种用于处理回归和分类的监督算法。

5. 造成分类不同于回归的原因是什么？

这两个概念都是监督机器学习技术的一个重要方面。分类将输出划分为不同的类别进行预测。而回归模型通常用于找出预测和变量之间的关系。分类和回归的关键区别在于，前者的输出变量是离散的，而后者是连续的。

6. 如何处理数据集中的缺失值？

数据科学家面临的最大挑战之一与数据丢失问题有关。可以通过多种方式对缺失值进行归因，包括分配唯一类别、删除行、使用均值/中值/众数替换、使用支持缺失值的算法以及预测缺失值等等。

7. 如何理解归纳逻辑编程（ILP）？

归纳逻辑编程是机器学习的子领域，通过使用逻辑编程开发预测模型来搜索数据中的模式。该过程假定逻辑程序是一种假设或背景知识。

图片来源： https://unsplash.com/@timmossholder

8. 需要采取哪些步骤来防止特定模型出现过拟合问题？

在训练中得到大量数据时，模型开始学习数据集中的干扰信息和其他错误数据。这使得模型难以泛化除训练集外的新样本。有三种方法可以避免机器学习中的过拟合。第一，保持模型简单；第二，使用交叉验证技术；第三，使用正则化技术，例如LASSO。

9. 什么是集成学习？

集成方法又称多学习器系统或基于委员会的学习。集合方法是一种学习算法，能构建分类器集，再分类新数据，对其预测进行选择。该方法训练了许多假设以解决相同的问题。集成建模的最佳示例是随机森林，其中许多决策树用于预测结果。

10. 机器学习项目中需要哪些步骤？

要实现一个好的工作模型，需要采取的关键步骤是收集数据、准备数据、选择机器学习模型、模型训练、评估模型、调整参数，最后是预测。

推荐阅读

清华学AI要考700+！别慌，全国各家AI高校大盘点！

抢票神器成GitHub热榜第一，支持候补抢票，Python跑起来 | 标星8400

10种Git技巧，让你省时省力又省心！

【文档】PyTorch中文版官方教程来了...

【热点】获利上亿！一程序员主犯非法挖矿被抓

登录查看更多

相关内容

监督机器学习

关注 3

《Python机器学习项目实战》，135页pdf带你小白入门机器学习

专知会员服务

174+阅读 · 2020年6月6日

【干货书】机器学习Python实战教程，366页pdf

专知会员服务

346+阅读 · 2020年3月17日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知会员服务

131+阅读 · 2020年3月7日

谷歌机器学习速成课程中文版pdf

专知会员服务

147+阅读 · 2019年12月4日

【机器学习课程】Google机器学习速成课程

专知会员服务

170+阅读 · 2019年12月2日

BAT机器学习面试1000题（716~720题）

七月在线实验室

19+阅读 · 2018年12月17日

BAT机器学习面试题1000题（376~380题）

七月在线实验室

9+阅读 · 2018年8月27日

BAT机器学习面试题1000题（331~335题）

七月在线实验室

12+阅读 · 2018年8月13日

机器学习面试题精讲（一）

七月在线实验室

4+阅读 · 2018年1月11日

BAT机器学习面试1000题系列（第116~120题）

七月在线实验室

16+阅读 · 2017年10月24日

Span Based Open Information Extraction

Arxiv

3+阅读 · 2019年3月1日

ML-Net: multi-label classification of biomedical texts with deep neural networks

Arxiv

7+阅读 · 2018年11月15日

Learning Recommendations While Influencing Interests

Arxiv

9+阅读 · 2018年3月23日

Noise2Noise: Learning Image Restoration without Clean Data

Arxiv

5+阅读 · 2018年3月12日

Fake Colorized Image Detection

Arxiv

6+阅读 · 2018年1月14日

VIP会员