本文整理了一些最常见的机器学习面试问题及其相应的回答。机器学习有志者以及经验丰富的ML专业人员可以在面试前以此巩固其基础知识。
机器学习是人工智能的一个子集,为机器提供了无需任何显式编程就能自动学习和改进的能力。
而深度学习是机器学习的一个子集,其人工神经网络能够做出直觉决策。
召回率又称真阳性率,是模型所需的阳性例数与整个数据中可用阳性例数的比值。
精度基于预测,又称阳性预测值,是模型所需的准确阳性例数测量值与模型实际需要的阳性例数之间的比值。
在监督学习中,机器在标记数据的帮助下进行训练,即带有正确答案标记的数据。
而在无监督机器学习中,模型自主发现信息进行学习。
与监督学习模型相比,无监督模型更适合于执行困难的处理任务。
图片来源:
https://unsplash.com/@brookelark
K-means是一种用于处理聚类问题的无监督算法,KNN或K近邻是一种用于处理回归和分类的监督算法。
这两个概念都是监督机器学习技术的一个重要方面。
分类将输出划分为不同的类别进行预测。
而回归模型通常用于找出预测和变量之间的关系。
分类和回归的关键区别在于,前者的输出变量是离散的,而后者是连续的。
数据科学家面临的最大挑战之一与数据丢失问题有关。
可以通过多种方式对缺失值进行归因,包括分配唯一类别、删除行、使用均值/中值/众数替换、使用支持缺失值的算法以及预测缺失值等等。
归纳逻辑编程是机器学习的子领域,通过使用逻辑编程开发预测模型来搜索数据中的模式。
该过程假定逻辑程序是一种假设或背景知识。
图片来源:
https://unsplash.com/@timmossholder
8. 需要采取哪些步骤来防止特定模型出现过拟合问题?
在训练中得到大量数据时,模型开始学习数据集中的干扰信息和其他错误数据。
这使得模型难以泛化除训练集外的新样本。
有三种方法可以避免机器学习中的过拟合。
第一,保持模型简单;
第二,使用交叉验证技术;
第三,使用正则化技术,例如LASSO。
集成方法又称多学习器系统或基于委员会的学习 。
集合方法是一种学习算法,能构建分类器集,再分类新数据,对其预测进行选择。
该方法训练了许多假设以解决相同的问题。
集成建模的最佳示例是随机森林,其中许多决策树用于预测结果。
要实现一个好的工作模型,需要采取的关键步骤是收集数据、准备数据、选择机器学习模型、模型训练、评估模型、调整参数,最后是预测。